您的位置:首页 > 互联网

清华大学视觉传达课程「清华大学开发出新视觉语言模型 可更准确理解 GUI」

发布时间:2023-12-28 00:55:14  来源:互联网     背景:

12月27日 消息:清华大学智普AI的研究人员开发了一种新的视觉语言模型(VLM),名为 CogAgent。该模型专门设计用于理解和导航图形用户界面(GUI)。

CogAgent 通过采用低分辨率和高分辨率图像编码器而脱颖而出。这种双编码器系统允许模型处理和理解复杂的 GUI 元素和文本内容,这是有效 GUI 交互的关键要求。

CogAgent 的架构具有独特的高分辨率跨模块,这是其性能的关键。该模块使模型能够有效处理高分辨率输入(1120x1120像素),这对于识别小型 GUI 元素和文本至关重要。

CogAgent 在各种任务中优于现有的基于 LLM 的方法,特别是在 PC 和 Android 平台的 GUI 导航方面。该模型还在多个文本丰富和一般视觉问答基准上表现优异。

ipad笔记识别手写

do not go gentle into the night

这项研究的结果表明,CogAgent 代表了 VLM 的重大飞跃,特别是在涉及 GUI 的环境中。其在可管理的计算框架内处理高分辨率图像的创新方法使其有别于现有方法。该模型在不同基准测试中优异的性能表明其在自动化涉及 GUI 操作和解释的复杂任务方面的潜力。

CogAgent 的潜在应用包括:

  • 自动化 GUI 操作,例如点击按钮、输入文本和选择菜单。
  • 提供 GUI 帮助和指导,例如解释功能和提供操作说明。
  • 开发新的 GUI 设计和交互方式。

CogAgent 仍处于早期开发阶段,但其潜在影响是巨大的。该模型有可能彻底改变我们与计算机交互的方式。

地址:https://github.com/THUDM/CogVLM

清华大学视觉传达设计思维与方法

有没有希望把华为发布会余承东换掉的

清华大学视觉传达系主任


返回网站首页

本文评论
三星宣布开发了业界首款12nm DDR5 DRAM,并通过了AMD的产品兼容性评估「DDR5 DRAM」
三星于12月21日宣布,他们开发了基于业界首款12nm工艺的16Gb(也就是2GB)DDR5 DRAM,并同时通过了AMD的兼容性评估。这款12nm的DDR5 DRAM的速度高达7.2Gbps,同时功耗相比于前代产品...
日期:12-23
usmile笑容加斥资5亿回收旧款,电动牙刷时代按下“终止键”
9 月 20 日世界爱牙日,usmile笑容加在新华网演播大厅举办数字牙刷新品发布会。会上,usmile笑容加发布了F10 系列数字牙刷,同时官宣数字牙刷三年战略计划,重磅启动了 5 亿回馈老...
日期:09-21
斯凯孚将成为蔚来陶瓷球轴承的首选供应商_斯凯孚将成为蔚来陶瓷球轴承的首选供应商吗
10月29日消息,近日斯凯孚与领先的高端智能电动汽车制造商蔚来签订了战略合作协议,进一步深化双方合作。根据协议,斯凯孚将成为蔚来陶瓷球轴承的首选供应商,并以广泛的技术能力支...
日期:10-30
阿里巴巴联手通创智慧共建物流服务平台怎么样_阿里巴巴联手通创智慧共建物流服务平台
  10月17日消息,近日,阿里巴巴与浙江通创智慧(物流)服务有限公司在北京签署了战略合作协议,双方将共同努力提升物流服务运营平台在全国中小企业的服务价值。   根据协议内...
日期:07-24
曝iPhone 16屏幕升级:更省电 三星供货_16.1 17.3屏幕
快科技11月15日消息,据媒体报道,今年上市的iPhone 15系列采用三星M12材料屏幕,明年登场的iPhone 16系列将采用全新的M14屏幕,这是三星专门为苹果研发的一种新OLED材料。陈平 星...
日期:11-15
探索出卫星研制新模式,试验十五号卫星发射取得圆满成功_第一颗试验通信卫星成功发射
2022年9月25日6时55分,试验十五号卫星搭载快舟一号甲运载火箭,在太原卫星发射中心点火升空,卫星准确进入预定轨道,发射取得圆满成功。试验十五号卫星由上海航天八院抓总研制,主要...
日期:09-27
淄博20天新建一座烧烤城 网友:五一可以放开吃了_淄博烧烤营业时间
淄博为了吸引五一期间众多游客,花费20天建成一座烧烤城,名为“淄博烧烤海月龙宫体验地”。今年3月,淄博市的烧烤迅速走红,吸引了各地游客前来品尝。尼康将发z85mmf1.8镜头当地政...
日期:04-28
《满江红》电视剧「张艺谋《满江红》网播定档4月28日:上线腾讯视频、优酷、爱奇艺」
4月23日消息,今日,张艺谋电影《满江红》网播正式定档4月28日,届时,将上线爱奇艺、优酷、腾讯视频三大平台。tcl收购中环集团参考此前网播电影,《满江红》预计也是单片付费模式,非...
日期:04-23
用户点赞破50万 OPPO获百度知道2019年用户体验奖
  智能手机行业发展至今,不同企业之间除了产品、技术外,售后服务也成为了众多消费者高度关注的点。注重用户体验,不断优化服务,才能在当今各品牌竞争的白热化赛道中脱颖而出...
日期:08-22
Pico Neo 2 Lite VR一体机「PICO 4 VR一体机新品正式发布,售价2499元起」
9月27日消息,PICO在中国市场正式发布新一代VR一体机——PICO4系列,售价2499元起。这是PICO被字节跳动收购以来首 次发布升级换代产品。据悉,PICO4产品配置达到行业领先水平。全...
日期:10-01
蔚来的李想和理想的李想「理想抄袭?李想回怼蔚来车主:连车轮都是你家发明的」
理想抄袭?李想回怼蔚来车主:连车轮都是你家发明的  【CNMO新闻】最近一段时间,理想汽车“厂长”李想经常在微博上输出自己的言论,引起争议。  6月19日,疑似蔚来车主在微博上...
日期:06-20
tcl李东升简介「TCL创始人李东生:有信心在显示领域超越三星 成为全球第一」
快科技11月30日消息,在近日的长江大讲堂上,TCL创始人兼董事长李东生在分享中表示,在终端显示领域,公司的目标是在未来超越三星成为全球第一。李东生表示,目前TCL已经超过LG成为了...
日期:12-01
屏幕达到 6.9 英寸,iPhone 16 Pro 和 Pro Max 将调整手机尺寸「16寸苹果pro价格」
5 月 9 日消息,来自供应链的消息称,将于 2024 年推出的 iPhone 16 Pro 和 iPhone 16 Pro Max 的屏幕尺寸分别约为 6.3 英寸和 6.9 英寸。电动汽车新能源宝马汽车消息来自显示...
日期:05-09
东方优选「扭亏为盈了!东方甄选半年净赚近10亿」
9月12日消息,微博话题东方甄选半年净赚近10亿”引发关注。在上个月,东方甄选公布了从去年6月1日至今年5月31日的2023财年全年业绩。数据显示,报告期内东方甄选净利润为9.71亿元...
日期:09-12
治理互联网“黑话”要封堵也要疏导(整治互联网)
针未尖   你听说过“栓Q”吗?你知道“蚌埠住了”是什么意思吗?不知从何时起,我们的生活正在被一些组合奇奇怪怪的互联网“黑话”所包围,大家跟风使用,张口就来,甚至“黑话”的生...
日期:07-31
元旦换机就选它 这几款三星Galaxy手机物超所值_三星超值换新
元旦的脚步越来越近,即将与 2023 年阔别,迎来崭新的 2024 年。在这一年辛勤工作的你,是否准备给自己或亲朋好友添置些礼物呢?如果没有不妨在即将到来的元旦前换个新手机,犒劳一下...
日期:12-26
中国移动总经理董昕:智慧览古今 数字游天下_移动董昕个人资料
通信世界网消息(CWW)11月23日,由文化和旅游部资源开发司、江苏省文化和旅游厅共同主办的智慧旅游发展大会暨智慧旅游示范展示活动在江苏南京举行,大会以“智慧旅游:新时代 新动能...
日期:11-24
解决MR头显软件生态难题:苹果将推出Vision Pro开发者套件
快科技6月6日消息,今天凌晨,苹果带来了堪称划时代”的MR头显新品:Vision Pro。据悉,Vision Pro将搭载新的visionOS操作系统,开发者需要基于新系统,专门为头显推出适配VR与AR场景的...
日期:06-06
互联网调研公司:Facebook成为美国访问量最大网站(facebook是全球最大的网络社区)
  北京时间12月30日早间消息,互联网调研公司Hitwise今天发表报告称,Facebook.com成为全美2010年访问量最大的网站,在2010 年1月到11月期间占据所有访问量的8.93%。Google.co...
日期:07-25
苹果独立的 AR 增强眼镜离上市至少还有四年时间
5月19日消息:据彭博社的 Mark Gurman 报道,苹果公司的增强现实眼镜设备距离推出至少还要四年时间。Gurman 在一份详细报告中解释了开发苹果公司混合现实头戴设备中涉及的一些...
日期:05-19