您的位置:首页 > 互联网

北大机器人当上亚运志愿者,全靠学生把多模态大模型结合具身智能

发布时间:2023-10-19 15:09:18  来源:互联网     背景:

北大 把投稿扔向 凹非寺

量子位 | 公众号 QbitAI

亚运会导游,原来背后离不开北大学生团队!

且看这个智能导游,它可不是一般人:

外观看上去像一辆小车,四个轮子在地面上快速灵活移动。

上面安装了机械臂,配有摄像头及语音等交互设施,使其能够对周围环境和需要执行的任务进行识别与理解。

据悉,这名导游机器人系统由北大计算机学院HMI团队研发,它结合了多模态大模型和具身智能。

在亚运会期间,它为视障人士提供引领和导航等帮助,并可解析视障人士的需求并完成相应任务,如帮助他们捡拾掉落的物品等。

具身智能,搭载多模态大模型那种

那么,这位具身智能导游是怎么炼成的?

在研究员仉尚航的指导和支持下,北大学生们形成了一种创新路径,即设计感知生成一体化的多模态大模型,以实现对各种视觉场景的精准感知与理解,并生成准确丰富的语言描述。

之所以这样设计,是因为这个导游最初就设计定位为服务残障人士、老年人、少数民族等——当前的技术落点,还没有完全解决他们的需求。

“少数民族的观众可能面临语言障碍,而残疾人士可能需要更多的辅助工具或特别的服务,以便更好地享受比赛。”团队成员、北大学生庄棨宁表示,多模态大模型是课题组的重点研究方向,于是一个把多模态大模型和具身智能结合起来,研发一个专门服务残障人士观赛的AI系统的想法,诞生了。

于是,多模态爱心助手亮相亚运会。

多模态爱心助手所搭载的系统,基于团队自研的感知生成一体化通用多模态大模型。

该系统集成了大模型的泛化感知能力和涌现能力。

同时,在爱心助手身上,多模态大模型和具身智能结合了起来,为机器人赋予更加智能的大脑,使其可以将人类复杂需求转化为具体行动指令。

它能做的事情,体现出一体化处理能力,包括:

场景感知,能够识别图像中的特定目标或特征; 场景解析,能够为图像生成描述性文本; 行为决策与规划,具备基于图像和文本信息进行决策和规划的能力。

每日优鲜美股上市价格

考虑到机器人会面对不同场景,需要具备快速适应新场景的泛化能力,团队设计了基于端云协作的大小模型协同高效微调,提升模型的泛化性,使其可以持续适应不同的场景。

举个

世界地球村是什么意思

如果有运动员用户说“我渴了”,机器人听到这句话后,完成转身拿水——递到用户手中,过程看似简单,实际上涉及了一系列子任务:

首先捕捉“我渴了”这句语音信号,然后通过语音识别技术,转换为文字; 理解“我渴了”这句话的含义,即用户现在需要水; 通过良好的感知能力,利用CV技术,识别、定位瓶装水; 规划来到瓶装水面前的路线,涉及路径规划算法; 控制自身动作,根据路径规划,来到水面前; 准确抓住瓶装水,涉及视觉检测、机器人控制系统和抓取的相关技术; 规划返回路径,并控制 自身动作,将水送到说话者的手中。

上述的每一个子任务,都需要大量的研究和工程实践。

不仅如此,机器人还需要能够处理在训练数据中未曾出现过的新情况,也就是说,模型需要具有强大的泛化能力,能够在新的、未知的环境中有效地工作。

为了提升机器人在开放环境下的持续性泛化能力,团队构建了一个端云协作的持续学习系统。

这一系统的设计旨在兼顾终端计算的个性化、隐私保护和低通信成本等优势,同时也充分利用云端计算的大规模计算资源、大量标注数据以及卓越的泛化能力。

还研发亚运会赛事解说AI系统

摩托罗拉千元机

据悉,杭州亚运会的多模态多语种视频解说系统,也出自这个团队之手。

基于多模态大模型,团队通过自研的X-Accessory一体化大模型工具链,设计了多模态多语种视频解说系统,在亚运会期间用于乒乓球、跆拳道、跳水、体操等赛事。

这个解说系统的特点在于,不仅能够理解和分析正在进行的比赛,生成实时的解说内容,还可以根据观众的喜好提供个性化的解说服务,包括将解说内容翻译成多种语言,包括维吾尔语、阿拉伯语等。

除了应用在本次亚运会,团队在大模型方面还有许多其他成果。

“多模态大模型是我们组研究的核心,目前也取得了一定的成果。”北京大学计算机学院博士后王冠群介绍,“除了这次自研的感知生成一体化通用多模态大模型、大小模型协同训练与部署,我们还关注多模态生成式大模型Agent设计、大模型记忆机制设计、面向多场景的智能医疗多模态大模型集群、通用大模型适配器等。”

就拿团队进行的多模态生成式大模型Agent设计来说。

单模态模型无法有效地结合视觉、听觉和文本等多种模态信息,这种局限性在复杂的实际场景,如虚拟助手、机器人交互和智慧城市中,可能导致效果并不理想。

因此,团队开发了一种多模态生成式大模型Agent,将各种模态的优点结合起来,例如视觉的细节捕捉能力、听觉的时序特性和文本的结构化知识。

这样的综合性设计,将有助于推动生成式模型向更加实用和高效的方向发展,满足未来多种复杂应用场景的需求。

在更复杂的应用场景,团队还研究过面向多场景的智能医疗多模态大模型集群。

他们设计和实现了一组智能医疗多模态大模型集群,包括面向患者的个性化医疗知识问答多模态时序大模型、面向医生的临床影像报告生成多模态大模型和面向导诊场景的检索增强大语言模型。

这样一来,能使大模型技术适配临床场景,满足患者-医生-医院多方诉求,解决行业痛点,推动大模型在医疗领域的落地应用。

△杭州亚运会期间科研团队合影 (第一排左起:张雨泽、庄棨宁、谢爱丽、仉尚航、张融宇、罗峪霖、王振宇;第二排左起:侯沂、戴鸿铭、王昊、李忱轩、张启哲、刘家铭、王冠群)

— 完—

量子位2023人工智能年度评选开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名

我要看联想z5

MEET 2024大会已启动!点此了解详情。

点这里


返回网站首页

本文评论
联发科称智能手机价格今年将降到100美元(联发科称智能手机价格今年将降到100美元吗)
  据国外媒体报道,向中国提供手机芯片的最大的供应商联发科的技董事长兼首席执行官蔡明介说,智能手机价格在降到100美元以下时将普及到新兴市场的大众市 场。他在接受采访...
日期:07-29
价格战真来了!RTX 3050/3060/3070集体打折:给钱就卖
快科技5月26日讯,在当前的消费电子市场环境中,想要求生存、保销量,不给消费者足够的实惠肯定不行。VCZ整理发现,微星的RTX 3070/3060/3050系列显卡,正集体打折。作为最受游戏玩家...
日期:05-27
《魔兽世界》国服将停服 暴雪拉拢老玩家:周末免费玩「暴雪魔兽世界最新消息」
昨天是《魔兽世界》10.1前夕第二阶段开始的日子,然而这一天暴雪给了国服玩家当头一棒,宣布与网易的合作破裂,代理到期之后《魔兽世界》国服就要停服了。苹果13降价800元这让国...
日期:11-20
国家邮政局:国庆假期全国共揽投快递包裹超 39 亿件(近日,国家邮政局公布,随着快递业)
  10 月 8 日消息 据国家邮政局网站,国家邮政局监测数据显示,10 月 1 日至 7 日全国邮政快递业高位运行安全平稳,共揽收快递包裹 19.91 亿件,与 2019 年同期相比增长 100.38%...
日期:07-17
刷掌支付属于什么技术「微信上线的刷掌支付功能,有什么优势?」
声明:本文来自微信公众号“唐韧”(ID:RyanTang007),作者:唐韧,授权转载发布。微信上线了一个黑科技新功能,刷掌支付。听过刷脸支付,刷掌支付确实还是第一次听说。如果加上密码支付,...
日期:10-16
李想回应原iQOO产品经理宋紫薇加盟:暂无做手机计划_iqqo宋紫薇
快科技9月19日消息,前不久,关于宋紫薇离职”的话题引起热议,众多网友纷纷猜测这位原iQOO手机产品经理下家会去哪里。今日,理想汽车CEO李想对宋紫薇入职理想汽车的传闻进行了回应...
日期:09-20
苹果支持usb「iPhone 15系列正式开放,USB-C接口可以兼容安卓线」
iPhone 15系列的充电接口问题终于得到了确认,据充电头网最新消息,iPhone 15系列的USB-C接口可以完全兼容其他设备的线材,包括安卓手机,而且没有任何加密措施。这一消息对于许多...
日期:09-17
一加销量排名「一加公布双11开门红战报 多款机型获得平台销量TOP3」
中关村在线消息:11月2日凌晨,一加官方发布了双11首日战报,一加Ace Pro斩获京东、天猫、拼多多、抖音四平台3000-3999元价位段手机销量Top2;一加Ace 斩获京东2000-2999元价位段...
日期:11-07
iPhone不送充电器被巴西扣压数百部 苹果:正常销售中_苹果不赠充电头在巴西被罚
中关村在线消息:据国外媒体曝光,巴西司法部认为苹果iPhone产品不附带充电器是“意图损害消费者利益”,消费者保护监管机构扣押了苹果多个零售店的数百部iPhone。对此,苹果表示现...
日期:11-26
美股周一:纳指和标普500均创14个月来新高,Rivian涨超17%_美股纳指指数走势图
美国时间周一,美股收盘主要股指全线上涨。在因假期缩短的交易时段,标指和纳指均创逾14个月来的最高收盘价,投资者关注上半年由大型科技股主导的强劲反弹是否可以扩大。美股在美...
日期:07-04
十一出行指南:沿途交给你 修图交给我
  晒美景、晒美食、晒美丽的一切,在多元的社交媒体生活中,我们看到了众多优秀自媒体的崛起,也分享着他们的美好和快乐。粉丝们常常点赞作品真好,而博主本人却默默感慨一声辛...
日期:02-26
官宣:小米与薇娅达成战略合作(薇娅 小米)
  5月16日晚间,小米公司官方微博宣布,知名带货主播薇娅与小米公司达成战略合作。   小米表示,薇娅女士及团队莅临小米总部,与小米直播达成战略合作协议,未来双方将会进行长...
日期:04-03
Facebook聘请博雅诽谤谷歌遭遇匿名危机(facebook被人举报)
腾讯科技讯(马乔)北京时间5月14日消息,美国《纽约时报》记者米格尔-赫尔夫特(Miguel Helft) 今天发表评论文章称,Facebook聘请知名公关公司博雅(Burson-Marsteller)炮制和散...
日期:07-27
Redmi Note 11T Pro新版本今天开始预约:8+256GB售价2099元「红米note10 pro首发价格」
9月28日消息,今天Redmi Note 11T Pro新版本:8+256GB的开始预约,售价2099元。这款手机搭载的是LCD屏幕,是目前为数不多的LCD屏,一直想买LCD屏手机的小伙伴可以预约,9月30日晚上8点...
日期:10-03
诺辉健康2021年财报「诺辉健康2023年中报营收8.2亿元人民币,同比增长265%」
8月21日消息,诺辉健康(6606.HK)今日发布2023年截至6月30日的经审阅中期业绩报告。公司上半年营业收入实现8.2亿元人民币,并首次实现过去12个月经常性盈利,扭亏为盈,较之前预期目标...
日期:08-21
采用电脑同款操作布局 「小米平板6」-Max 14支持PC级WPS
在今年4月的小米13 Ultra旗舰新品发布会上,除了这款顶级旗舰手机外,小米还还在平板产品线进行更新,推出了全新的小米平板6系列,包含小米平板6和小米平板6 Pro两个版本,号称“打造...
日期:09-09
起猛了,这个小黄人竟然是投影仪?!_小黄人投影怎么样
在 10 月 7 日这一天,小编关注到一款神奇的产品上市了。大眼橙推出了一款小黄人投影仪。这款产品是与环球影业联手打造的,一经发布便引爆了小黄人影迷和众多用户的热情,成为了...
日期:10-11
反垃圾信息网络社区联盟宣告成立 将共享反垃圾先进技术
  2011年3月10日消息,在中国互联网协会行业自律工作委员会的指导下,由百度贴吧发起并联合开心网、搜狐社区、网易论坛、天涯、猫扑、凤凰论坛、西祠胡同网、京探网、19楼空...
日期:07-26
macbookpro最大屏幕「史上最大屏的MacBook Air来了:M2加持 售价过万」
快科技6月5日消息,据媒体报道,苹果预计在WWDC2023上推出15英寸MacBook Air笔记本。目前MacBook Air只有13.6英寸版本可供选择,现在苹果将带来15英寸版本,这是苹果史上尺寸最大的...
日期:06-06
热追京崎!TOOKY-E661手机仅售1480元
  /朝闻通/——惊艳不突兀,华丽不浮夸。 “i mina” TOOKY E661从上市至今,闪花了不少MM的眼,这个崇尚以日系风格契合中国女性时尚品味的手机新宠儿,在与时尚女性杂志《米娜...
日期:07-22