您的位置:首页 > 互联网

Tarsier:构建基于视觉交互的多模式网络代理工具库

发布时间:2023-11-15 20:23:16  来源:互联网     背景:

11月15日 消息:Tarsier是一个开源的简单实用的多模式网络代理工具库,它提供了视觉标记可交互元素、页面截图OCR识别、文本元素标记等功能,为网页交互代理提供了更深层次的视觉和文本处理能力。

该工具库通过在页面上使用方括号+id的方式对可交互元素进行视觉标记,提供了元素和id之间的映射,使得GPT-4(V)可以对这些元素进行操作。

项目地址:https://github.com/reworkd/tarsier

oppo find x3最新版本

Tarsier还提供了OCR工具,可以将页面截图转换为LLM可理解的字符串,为没有视觉能力的LLM提供了更深层次的交互能力。

此外,Tarsier还提供了一些示例代理,如自主LangChain网络代理和自主LlamaIndex网络代理,可以演示Tarsier的使用方式。

总之,Tarsier通过提供视觉标记、OCR识别等功能,为网页交互代理提供了更丰富的交互能力,为现有的视觉语言模型的性能问题提供了解决方案。


返回网站首页

本文评论
高盛数字化转型启发「高盛:生成式AI将影响主要经济体的3亿个就业岗位」
3月29日 消息:高盛(Goldman Sachs)的研究显示,人工智能领域的最新突破,可能导致美国和欧元区四分之一的工作实现自动化。这家投资银行周一表示,ChatGPT等“生成式”人工智能系统...
日期:03-29
红米Note 11R上架!天玑芯片配直屏「红米note11天玑1200」
中关村在线消息:9月29日,据相关爆料,红米即将明日正式发布红米Note11 R,发售时间为明日上午十点整,售价暂未公布,预计售价不会超过1999元,产品定位为高刷屏长续航,5G小金刚,新机主打...
日期:10-01
苹果官方首次宣告iPhone 15系列降价 最多可减700元_苹果ios 15多少钱
苹果官方宣布iPhone15系列手机首次降价,降幅高达800多元。这一宣布发生在“双11”购物狂欢节期间,各大品牌都在推出各种优惠活动,手机厂商也积极参与其中。据报道,从10月30日开...
日期:10-31
联想y470配置「联想y470配置升级」
联想y470是一款笔记本电脑,配置不错,适用于办公和娱乐。下面我们来看看它的具体配置。处理器方面,联想y470使用的是英特尔酷睿i5/i7四核处理器。这款处理器采用了22nm工艺,支持...
日期:05-31
扎克伯格创业启示_最有潜力成为下个扎克伯格的五个青年创业者
  12月28日消息,据国外媒体报道,美国娱乐网站TheSmokingJacket撰稿人哈蒙·立昂(Harmon Leon)评出了五个有潜力成为下一个马克·扎克伯格(Mark Zuckerberg)的创业公司领袖...
日期:07-25
戴尔G5携顶级性能上线 外星人灯效和300Hz屏幕王者联合_戴尔g5外星人灯效怎么开
  对于大多数社畜来说,Steam游戏是周末必备餐。无论是《光环:士官长合集》、《神界:原罪2》终极版还是《废品机械师》、《GTA 5》等大热的游戏都给予玩家度日如秒的快活感觉...
日期:07-14
非买不可!盘点 iPhone 14 系列十大升级亮点,Pro 版独占五大功能「iphone12pro增强现实」
万众期待的新一代 iPhone 14 系列正式推出,不出所料苹果今年推出了 iPhone 14、iPhone 14 Plus、iPhone 14 Pro 和 iPhone 14 Pro Max 四款机型,没有了 5.4 英寸的 mini 机型,...
日期:09-16
中国移动云游戏参展2021ChinaJoy,“5G+游戏”再启征程续写产业新篇_5G云游戏产业峰会
  7月29日,一年一度的ChinaJoy展会前夕,2021中国国际数字娱乐产业大会(CDEC)在上海盛大召开。作为最具专业性、权威性和国际性的数字娱乐产业顶级盛会,大会吸引了众多海内外...
日期:01-22
软银集团arm「AI革命即将到来 我们正准备主动出击 软银集团-CFO」
至少在过去 6 年中,软银总裁孙正义一直是人工智能的积极倡导者,早在 OpenAI 的 ChatGPT 让全世界意识到 AI 的潜力之前。但最近在向 AI 初创公司投资的热潮中,软银在投资领域中...
日期:09-28
Infor全球副总裁谢晓蓓:AI引领下的数字工业革命_谢晓峰百度百科
【网易科技5月31日报道】近日,“AI 赋能·工业创新”2023 Infor 数字化峰会(华东站)在苏州举办,Infor 全球副总裁及大中国区总裁谢晓蓓、大中国区及韩国商业咨询高级总监鹿崇,围...
日期:05-31
PTC在中国推出基于云平台的Arena PLM和QMS
通信世界网消息(CWW)近日,PTC宣布在中国推出Arena®云原生产品生命周期管理(PLM)和质量管理系统(QMS)软件解决方案。PTC与伟仕佳杰(VSTECS)和亚马逊云科技(AWS)合作,在中国推出Arena PLM...
日期:09-25
森林、用电还有垃圾分类 这些利国利民的“小事”正在因飞桨更简单!
  在美国大选年、平权运动的热闹声里,一篇讲述大洋彼岸的中国AI故事意外登上了热读榜单。这篇文章来自全球顶级科技商业杂志、美国麻省理工学院主办的《MIT科技评论》,那些...
日期:07-14
快手再落地AIGC新应用场景,AI玩评功能已开启内测
9月15日消息,快手宣布,在短视频评论区开始内测AI文生图功能——快手AI玩评,用户通过输入各种创意文字,可一键生成海量风格图片,更便捷的在评论区进行趣味互动。摩托罗拉 G8据悉,这...
日期:09-15
中国信通院:8月国内市场手机出货量1898.5万部
10月18日 消息:据中国信通院报告,2023年8月,国内市场手机出货量1898.5万部,同比增长0.03%,其中,5G手机1564.5万部,同比增长9.6%,占同期手机出货量的82.4%。我的世界起床战争在哪下...
日期:10-18
帮助医护回复患者和分析记录,微软宣布将把GPT-4用于医疗领域_微软 gpt3
4月19日消息,本周一,微软和Epic Systems宣布将把OpenAI的GPT-4人工智能语言模型引入医疗保健领域,以帮助医护人员回复患者信息和分析医疗记录。特斯拉fsd套件即将正式推送Epic...
日期:10-02
Google利用生成式AI协助印度用户查找政府福利计划
划重点:- Google在印度的Google for India活动上宣布推出一系列生成AI工具,包括图像和视频搜索功能,以及政府计划信息。提高了科研效率- 用户将能够在未来几周内获取有关印度...
日期:10-20
一汽大众app不显示车辆信息「一汽大众回应汽车导航时弹出广告:不愿接收可不再推送」
  IT之家 9 月 26 日消息,近日,大众纯电车中控屏导航时突现弹窗广告,引发网络热议。据上游新闻报道,一车主发视频称:驾驶新买不久的一汽大众 ID.6 纯电车,在使用车载导航行驶时,...
日期:09-27
零工经济崛起 金柚网赋能企业“降本增效”(零工经济平台)
  2020年疫情将“灵活用工”推到到人们的视线之中,实际上,在此之前,全球已经有数以百计的工人参与到灵活用工中。灵活用工成为为企业降本增效以及为个人增加收入的有效方法...
日期:07-16
Apple 为 SignChat 申请商标以提供手语服务
5月29日 消息:根据欧盟知识产权局周末公布的一份清单,苹果已经获得批准使用名为“SignChat”的新商标,苹果已经在其德国网站上申请了该商标。iphonese有touchid吗Apple 的德国...
日期:05-29
华为鲁勇:5G+云+AI三大核心引擎将驱动广州数字经济(华为云5G)
  广州是一座多样化的城市,在历史上被誉为千年的商都,它因商而立,因商而兴,是历史上唯一一个兴盛千年的商业中心城市,作为中国文化的一块重要的基石,广州有一种天然的敢为天下...
日期:06-12