您的位置:首页 > 互联网

戴着苹果Vision Pro打麻将!NTU微软华人团队联手打造Otter-E,专为AR头显设计

发布时间:2023-06-11 19:10:52  来源:互联网     背景:


新智元报道

编辑:桃子 拉燕

【新智元导读】近日,南洋理工&微软华人团队联手推出多模态模型「水獭」,未来还可成为AR头显的AI助手,超越贾维斯不是梦!

苹果封神头显Vision Pro诞生,直接开启了空间计算之路。

如果开发一个AI助手「贾维斯」,能够让下一代头显在生活中发挥极致,那才真的让人兴奋。

打麻将时,直接问我该弃什么牌?Otter-E给出打牌建议,以后还不是把把胡。


空中飞行时问Otter-E我想停在某个位置,它便会详细讲解让你如何落地。


‍还有踢球时,也能寻求Otter-E的建议。


甚至,当你看到水里嬉戏的水獭,有感而发,就可以让Otter-E为你做一首五行诗。


以上,便是来自南阳理工大学和微软的研究人员专为AR头显训练的AI助手「Otter-E」。

其实,这是Otter模型的另一个进化体。

Otter是一个基于OpenFlamingo的多模态的模型,在MIMIC-IT上进行了训练,并展示了改进的指令遵循能力和上下文学习。


值得一提的是,Otter在2个消费级的RTX3090 GPU便可跑。


另外,MIMIC-IT横跨了7个图片和视频的数据集,涵盖了各种各样的场景,支持8种语言。

从通用的场景理解,到发现细微差异,再到增强AR头显的第一人称视图理解。


有网友表示,很兴奋能够看到人们为为苹果Vision Pro制作的AI AR应用。


支持8种语言,横跨7个数据集

目前,AI发展最快的领域就集中在对话助手上,AI拥有强大的能力来理解用户的意图,然后执行。

除了大型语言模型(LLMs)的强大概括能力外,指令调优功不可没。

指令调优涉及在一系列不同的高质量的指令上对LLM进行微调。通过指令调优,LLMs获得了对用户意图更强大的理解能力。

虽说LLaVA的性能还算强大,但LLaVA-Instruct-150K仍然存在三个限制。

(1) 有限的视觉多样性。

(2) 以单一的图像作为视觉数据。

(3) 仅有和语言相关的上下文信息:


为了解决这些限制,研究人员引入了多模态上下文指令调整(MIMIC-IT)。

MIMIC-IT有三个最大的特点:

(1) 多样化的视觉场景,包含了一般场景、自我中心视角场景和室内RGB-D图像等不同数据集的图像和视频。

(2) 多个图像(或一个视频)作为视觉数据。

(3) 多模态的语境信息,特点是以多模态格式制定的语境信息,包括多个指令——回应对和多个图像或视频。


论文地址:https://arxiv.org/pdf/2306.05425.pdf

下图为MIMIC-IT的示意图。


MIMIC-IT的数据集包括280万个多模态指令——反应对,涵盖以下基本能力:感知、推理,以及计划。

每条指令都伴随着多模态的对话背景,使得在MIMIC-IT上训练的VLM能够在交互式指令之后表现出强大的熟练度,并能实现零样本泛化(zero-shot generalization)。

研究人员建立了MIMIC-IT数据集,以支持更多的VLMs获得理解真实世界的能力。

下图是两种模型数据格式的比较:LLaVA-Instruct-150K vs MIMIC-IT


(a) LLaVA-Instruct150K由单一图像和相应的仅有语言的语境信息(黄框部分)组成。

(b) MIMIC-IT在输入数据中容纳了多个图像或视频,并支持多模态的语境信息,即把图像/视频和语言输入都视为语境信息。

同时,研究人员提出了Sythus,这是一个用于生成多语言高质量指令-答案对的自动管道。

在LLaVA提出的框架基础上,研究人员利用ChatGPT来生成基于视觉内容的指令-回应对。

为了确保生成的指令-回应对的质量,研究人员的数据管道将系统信息、视觉注释和上下文中的例子作为ChatGPT的prompt。

由于核心集的质量影响到后续的数据收集过程,研究人员采用了一个冷启动策略。

在冷启动阶段,研究人员采用启发式方法,仅通过系统消息和视觉注释来提示ChatGPT收集上下文中的例子。

这个阶段只有在确定了满意的语境中的例子后才会结束。

在第四步,一旦获得指令-反应对,数据管道将它们扩展为中文(zh)、日文(ja)、西班牙文(es)、德文(de)、法文(fr)、韩文(ko)和阿拉伯语(ar)。


Sythus概述。研究人员采用了一个冷启动阶段来确定最佳的系统信息和语境中的例子,以便在给定的数据集中查询指令-响应对。

随后,Sythus跨越步骤1到4,生成了8种语言的高质量指令-响应对。

下图为MIMIC-IT与其他多模态指令数据集的比较。


MIMICIT凭借以下特点脱颖而出:

(1) 最大的视觉语言指令数据集。

(2) 第一个包括视频数据的指令数据集。

(3) 支持多模态的上下文场景(数据格式见图2)。

(4) 支持八种语言,包括:英语、中文、西班牙语、日语、法语、德语、韩语和阿拉伯语。

MIMIC-IT的数据源包括七个数据集:COCO, Spot-the-diff, ScanNetV2, VisualStorytelling, DenseCaption/Activity caption, TVCaption, and Ego4D。

其中lang.表示语言,vis.表示视觉。

下图为多模态的语境中指令-反应对的数据统计。


(a)和(b),指令和回应的根动词-名词对,图中内圈代表输出回应的根动词,外圈代表直接名词。

(c)指令和回应的统计,保留了25%的Ego4D指令,以使分布更均衡。


上图表现了Otter在不同场景下的反应实例。

在MIMIC-IT数据集上进行训练后,Otter能够为情境理解和推理、用语境中示例学习,以及自我视觉AI助手。

Otter诞生

研究者展示了MIMIC-IT数据集的各种应用,以及在其上训练的视觉语言模型(VLM)的潜在能力。

研究者首先介绍了Otter,一种使用MIMIC-IT数据集训练的上下文指令调优模型。


接下来,研究人员还探讨了在MIMIC-IT数据集上训练Otter的各种方法,并讨论了可以有效使用Otter的许多场景

- 场景理解和推理

MIMIC-IT数据集包含大约280万个上下文指令-响应对,它们被结构化为一个内聚的模板,以便于完成各种任务。

下面的模板包括图像,用户指令和模型生成的响应,利用人类和助手角色标签,以实现用户与助手的无缝交互。

在MIMIC-IT数据集上训练Otter模型,可以让其获得不同的能力,这一点在LA和SD任务中得到了证明。

在LA任务上的训练,Otter表现出卓越的场景理解力、推理能力和多轮对话能力。同时,在SD任务中,可以熟练地发现日常场景中的一般差异或微妙区别。

如图,在MIMIC-IT数据集上训练后Otter的回应,突出了它在多轮对话中理解和推理的能力。

- 用上下文示例学习

正如前面提到的,关于组织视觉语言在上下文实例的概念,研究人员演示了Otter模型在LA-T2T任务训练后遵循上下文间指令的能力。对于其他任务,输入数据的组织格式如下:


苹果公司合作伙伴

- 自我视觉理解

MIMIC-IT数据集的一个显著特点是,包含了一个第一人称的视频和连续图像的综合集合,来自IEP、E4D场景。

在IEP场景中,内容强调在室内环境中的理解和规划,包含了旨在指导模型根据室内布局进行事件规划的指令和响应。

另一方面,E4D场景专门为第一人称增强现实(AR)头显助理应用定制了指令和响应。

根据这部分数据,研究人员训练了一个自我视觉助手,称为Otter-E,专门为AR头显应用设计的。

MIMIC-IT增强了该模型从第一人称视角感知场景的能力,为即将到来的任务制定策略,并为AR耳机用户提供有价值的见解和建议。

因此,Otter-E模型成为AR头显的一个特殊和有远见的视觉语言模型,为开创性的沉浸式体验铺平道路。

实验评估

如下表,研究人员利用MMAGIBench框架对视觉语言模型的感知和推理能力的广泛评估。

Otter通过在感知和推理任务中实现最高的平均准确性,优于所有基线模型。


目前视觉语言模型的评估指标,如VQAv2,在稳健性方面存在缺陷。例如,VQAv2主要评估单字或短语的反应,而许多模型则产生句子输出。

为了弥补这一差距,研究人员通过要求ChatGPT将其标签预测,与每个输入的真实标签进行比较来评估这些模型。如果ChatGPT的反应表明预测与相应的标签一致,则认为测试样本是正确的。

如图,Otter 在视频理解方面的表现优于基线模型。(b)人类评估比较。Otter 展示了优越的实用性和一致性。(c)上下文学习评估中的少量镜头。Otter 优于 OpenFlamingo 作为一个更好的语境和零镜头学习者。


作者介绍

Li Bo


Li Bo是南洋理工大学计算机系一年级博士生,导师是刘子纬。他热衷的深度学习研究话题包括:

基础模型:稳定扩散,GPT,它们似乎有望将具有真正智能的人工智能投入实际应用。

具身AI: 一种通过互动和探索学习解决环境中具有挑战性任务的自主智能体。

这些都是登月计划的狂野梦想,也是Li将长期关注的问题。目前他的第一步研究课题是聚集于真实世界的场景中的计算机视觉和基础模型的新兴能力。

Yuanhan Zhang (张元瀚)


张元瀚是南洋理工的博士生,导师也是刘子纬。他的研究兴趣在于计算机视觉和深度学习。特别是,对表征学习和可转移性感兴趣。

Ziwei Liu(刘子纬)


刘子纬,新加坡南洋理工大学助理教授,并获得南洋学者称号(Nanyang Assistant Professor)。他的研究兴趣包括计算机视觉、机器学习与计算机图形学。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/1460dsr/otter_is_a_multimodal_model_developed_on/

https://otter-ntu.github.io/

https://arxiv.org/pdf/2306.05425.pdf


返回网站首页

本文评论
技术至上:科技公司“统治”全球品牌百强(图)_世界先进科技股份有限公司
  北京时间11月9日消息,据Interbrand年度“全球最佳品牌榜”,2019年与2001年相比最有价值品牌因科技的影响力变化显著,表明了科技公司在短时间内可以扩展成庞大品牌的程度,从...
日期:11-27
美国为了打压中国芯片业竟然禁止卖金刚石 这太荒唐了
运营商财经 康钊/文近日,美国相关部门宣布对中国禁止出售四种产品,都是针对中国芯片业,其中禁止对中国出口金刚石,这令人好笑,因为金刚石就是钻石的原材料。金刚石就是通常人们理...
日期:08-16
再获殊荣 !众盟数据创始人兼CEO广宇昊获“年度影响力人物”大奖
  8月23日,被誉为“行业创新风向标”、中国高端行业互动交流平台的科睿国际创新节在北京隆重举办。本届大会由北京市市场监督管理局、中国广告协会、北京广告协会指导,科睿...
日期:09-07
魅族2023新年礼盒来了!过年回家的元素齐了「魅族新品2021」
对魅族来说,已经过去的2022无疑是难以忘记,值得纪念的一年;而刚刚启程的2023,同样也是值得期待的一年。今天,魅族正式公布了2023年的新年礼盒。现代mpv库斯途配置从这款礼盒顶层...
日期:01-13
抖音推出“抖音端内在线履约”功能_抖音平台规定
10 月 11 日消息,抖音电商日前发布了关于教育培训抖音端内在线履约功能及迁移公告。公告称,随着用户对于购买课程、课程学习等流程体验要求不断提高,目前,抖店购买课程需去其他...
日期:10-12
一季度AIGC人才需求猛增  25%的AIGC算法工程师月薪超68K_ai算法岗
凤凰网科技讯 4月21日消息,拉勾招聘发布《2023第一季度 AIGC人才供需报告》,报告显示,2023年3月,AIGC人才岗位需求量环比增加42%,其中,25%的AIGC算法工程师岗位月薪超68K。头部互...
日期:04-21
微软:IE6全球市场份额不足12%(微软市净率)
  根据Net Applications的统计,IE9 Beta在1月份的市场份额继续增长。尽管仍处在Beta测试阶段,不过IE9的下载量已经突破2300万次,全球市场份额达到了0.5%。微软指出,在 Window...
日期:07-26
EduSoho出席全国高校职继融通与人才培养高级研修班,分享终身学习解决方案
  7月21日-24日,为期四天的“全国高校职继融通与人才培养高级研修班”在宁夏银川落幕。会议由全国高校现代远程教育协作组、全国高校职继融通合作发展联盟指导,中国教育在...
日期:05-09
互动CEM成为存量市场发展新风口,小蚁数智如何出奇制胜?
  CEM又称用户体验管理,以提高用户体验为出发点,为用户传递目标信息、创造匹配品牌,进而创造差异化的用户体验。随着消费升级以及数字化对传统行业颠覆,催化了用户体验管理市...
日期:09-22
微软11系统「版本升级!微软更新Windows 11 22H2正式版官方ISO镜像:免费下载」
快科技5月16日讯,微软悄然更新了Windows 11 22H2版本的ISO镜像文件。此次更新的主要变化是不仅打包了Moment 2、Moment 1两个功能体验包,也集成乐最新的周二补丁KB5026372,对应...
日期:05-17
视频号青少年内容分级能力上线 青少年模式活跃用户同比增长35%
6月1日 消息:视频号宣布青少年内容分级新能力上线,家长给孩子开启青少年模式后,可以根据孩子的年龄、偏好的内容标签来设置专属的视频号青少年内容池。数据显示,青少年模式活跃...
日期:06-01
大熊猫饲养基地招聘「招聘大熊猫饲养员数百份简历零录取 需要畜牧兽医专业知识」
最近,大熊猫“宝新”离世的消息备受关注,如何照顾大熊猫成为网友热议的话题。成为大熊猫饲养员的标准有多高?在常州溧阳,南山竹海熊猫馆这几年一直在招大熊猫饲养员,简历收了数...
日期:03-24
空客签下中国超级大单 总共160架商用飞机「中国300架空客」
空中客车周四宣布与中国合作伙伴签署了160架商用飞机采购协议,并将在天津开设第二条装配线,进一步扩大其在全球最大航空市场之一的影响力。该一揽子协议是在法国总统埃马纽埃...
日期:04-07
小米14系列两大新升级曝光!消灭多年遗憾「小米14配置」
快科技6月7日讯,今年的高通骁龙峰会定档10月24日,不出意外的话,骁龙8 Gen3将与我们正式见面。它的发布也意味着,一大批换代的安卓旗舰也会随后登场了,其中的代表无疑包括小米14系...
日期:06-08
揭秘《流浪地球》获金鸡奖幕后,华为云成特效渲染推动者_流浪地球华为 渲染
  前不久,2019年第32届中国电影金鸡奖开幕,被誉为“首部国产重工业科幻片”的《流浪地球》一举斩获最佳故事片、最佳录音两项大奖。《流浪地球》填补了中国科幻片的空白,以...
日期:01-15
速度与激情10会出吗「倍思推出《速度与激情10》主题礼盒 畅享高效充电体验」
倍思作为快充数码专家的领军品牌,近期宣布与备受瞩目的电影系列《速度与激情10》合作,推出了限量版电影主题礼盒。这次合作将倍思作为快充数码专家的地位与电影紧密结合,为用户...
日期:05-29
最强年度盘点就看2019微博之夜_19年微博之夜时间
  随着2019年步入倒计时,各大平台的年度评选也陆续拉开了帷幕,2019微博之夜线上投票也于近日正式启动。网友可以在年度事件、年度流行语、年度人物、微博KING&QUEEN四大榜...
日期:05-15
支付宝推出闲置物品交易“易转让”平台(支付宝转卖过闲置商品)
  新浪科技讯 11月17日下午消息,支付宝(微博)宣布针对社区支付领域推出交易推广服务平台“易转让”。用户可通过该平台发起闲置物品交易,交易信息可同步发布至新浪微博、淘...
日期:07-24
大众中国CEO:将在中国市场投放更多款电动汽车「大众电动车发布会」
1月17日消息,大众中国总裁兼首席执行官贝瑞德(Ralf Brandstaetter)周一表示,公司希望在中国市场同时增加高端和低端车型。他将中国这个快节奏的竞争市场称为“汽车行业的巨大...
日期:01-17
移远通信加入信通院“移动物联网发展方阵”,成首批副理事长单位
通信世界网消息(CWW)6月6日上午,在第31届中国国际信息通信展览会期间,由中国信息通信研究院主办的“移动物联网高质量发展论坛”在京举行。工业和信息化部信息通信发展司副司长...
日期:06-08