您的位置:首页 > 互联网

多模态模型再进化,已学会看图玩扑克、算“12点”

发布时间:2024-06-04 21:12:29  来源:互联网     背景:

6月4日 消息:在科技领域,多模态模型的决策能力一直是研究的热点。最近,UC伯克利等高校的研究团队提出了一种名为RL4VLM的全新强化学习框架,成功地提升了多模态大模型在决策任务上的表现。该模型在无需人类反馈的情况下,通过强化学习微调,已经学会了看图玩扑克、算“12点”等任务,并且其表现超越了GPT-4v。

研究团队由多位重量级人物组成,包括图灵奖得主、Meta首席AI科学家、纽约大学教授LeCun,UC伯克利的Sergry Levine教授,以及香港大学数据科学学院院长、UC伯克利教授马毅等。他们的研究成果已经以论文预印本的形式发布,并且相关代码已在GitHub上开源。

台积电研发苹果手机的芯片先进吗

RL4VLM的核心是一种新的算法框架,它直接使用强化学习方法对多模态大模型进行微调。这种方法的一个显著特点是,奖励信息直接来源于环境,不再依赖于人类反馈。这不仅提高了效率,也赋予了多模态模型自主决策的能力。

为了全面评估RL4VLM的效果,研究团队设计了两类评测任务。第一类任务主要测试模型利用图像中的细粒度视觉信息进行决策的能力,包括数字识别和逻辑推理。第二类任务则主要考察模型在具身智能环境中的视觉语义推理能力。

具体到任务,研究团队设计了数轴(Numberline)、简易12点(EZPoint)、24点(Point24)、21点(Blackjack)和ALFWorld等五个任务。其中,ALFWorld是微软等于2020年提出的开源具身智能任务集,而其他任务则是研究团队的原创设计。

实验结果令人鼓舞。经过强化学习微调的多模态模型,在决策问题上的表现不仅超过了商用模型GPT-4v,同时也超越了传统的监督微调方法。特别是在ALFWorld的具身智能任务中,RL4VLM模型取得了最高的平均分,尤其在单物体拾取任务上表现突出。

RL4VLM的工作流程是这样的:首先,系统将任务的当前状态以图片和文字描述的形式输入多模态大模型,并要求模型输出一段思维链,然后以文字形式输出要执行的动作。动作信息输入环境后,获得奖励值,该奖励值将用于强化学习训练。

为了适应RL训练框架,研究人员对模型的输入和输出进行了调整。具体来说,将任务图像和任务描述的文本合并后,直接作为当前任务的状态输入。在获得模型的文字输出后,将其转化为与环境交互的动作指令。

消融实验结果表明,使用思维链提示过程对任务成功率至关重要。这项研究不仅为多模态模型的性能提升提供了新的思路,也为未来人工智能的发展开辟了新的可能性。

论文地址:https://arxiv.org/abs/2405.10292

GitHub:https://github.com/RL4VLM/RL4VLM


返回网站首页

本文评论
中国移动杨杰:深化“ULTRA”新特性,迈向算网3.0新阶段_中国移动杨杰三个转变
通信世界网消息(CWW)4月28日至29日,2024中国移动算力网络大会在苏州开幕。大会以“算力网络点亮AI新时代”为主题,全面展示了中国移动最新算力网络成果与能力。中国移动杨杰董事...
日期:04-28
三星在最新的One UI 5.0测试版中复制了iOS 16的锁屏定制功能「三星one ui 一键锁屏」
iOS 16的最主要功能之一是锁屏定制功能。该功能与iPhone 14 Pro上的"灵动岛"相结合,为用户如何定制锁屏和创造真正属于自己的个性化内容提供了新的思路,从一开始推出就收到认...
日期:09-28
小米资讯中心「小米资讯网」
是小米集团旗下的一家资讯网站,主要提供小米集团旗下的产品及服务的最新资讯,包括小米智能手机、小米笔记本电脑、小米电视等等。该网站成立于2010年,是小米集团在互联网领域的...
日期:05-29
百度地图大数据:10月6日热门景区、购物中心、游乐场热度均有所下降
  国庆假期第六天,全国已迎来客流返程小高峰。根据百度地图节假日出行仪表盘数据显示,截至10月6日16:30,全国高速平均拥堵里程1032.75km,高速拥堵峰值出现在16:00,拥堵里程为3...
日期:07-17
微软暗示 Win11 23H2 重大版本“太阳谷 3”将“精细投资”_Windows 10 21H2太阳谷
  据 Windows Latest 报道,在 Windows 11 的发布活动中,微软表示将重新关注这个成名的操作系统。作为提高 Windows 普及度努力的一部分,微软将部分 Windows 开发转移到 Pano...
日期:11-12
两司机起争执互相吐口水打屁股 网友:一场闹剧
23日,在贵州发生了一场因交通事故而起的争执。两名男子,一位是三轮车师傅,另一位是的士司机,因为这场意外而产生了摩擦。事件的起因颇为出人意料,三轮车师傅竟然朝向的士司机吐口...
日期:03-25
百家号联合专家推出百家辟谣榜,这些新型冠状病毒肺炎的谣言不能信
  随着新型冠状病毒肺炎确诊病例数字不断上升,公众的神经也愈发紧绷。近日,网络上再度流传出各种有关新型冠状病毒肺炎的流言,不少网民纷纷通过上网搜索来验证这些流言的真...
日期:01-27
比亚迪电子:前三季度营业额711.56亿元 同比增长7.92%_比亚迪电子季报
10 月 28 日讯:比亚迪电子发布未经审计业绩称,前 9 个月营业额为711. 56 亿元,同比增长7.92%。母公司权益拥有人应占溢利12. 37 亿元,同比减少42.66%;每股盈利0. 55 元。联想拯...
日期:11-07
腾讯最大股东一个月减持7980万股  投资20年赚超7000倍「腾讯持股最高的」
11月25日 消息:虽然腾讯股价已反弹近40%,但依然面临着被南非大股东减持的压力。11月24日,腾讯大股东Naspers集团荷兰子公司Prosus发布最新资产概况显示,相比10月28日和11月23日...
日期:11-26
马斯克科研「马斯克也逃不过科目三,阿里这个应用都要把外国人馋哭了」
机器之心原创作者:陈萍、大盘鸡 阿里开年整新活了。 最近,不少社交平台都被一种名为科目三的舞蹈视频刷屏了,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一舞蹈动作遭...
日期:01-09
带货被抓的是谁「被全网谩骂的她,成了“带货一姐”」
声明:本文来自于微信公众号 派代(ID:paidaiwang),作者:菠萝蜜,授权转载发布。“我就没见过这样的直播间”、“也太好买了吧”、“小红书终于有带货顶流了”......近期,网友们在各...
日期:03-13
全国多个城市禁止老头乐 清退违规低速代步车_禁止老年代步车的城市
所谓“老头乐”,又称低速电动车,因其价格低廉、操作简便而受到老年群体的欢迎。然而,这种车辆在大街小巷穿梭的同时,也给道路安全带来了严重隐患。无序行驶、交通事故频发等问题...
日期:01-02
微软 Win11 正式版发布半年后 UI / UX 设计仍不统一,网友呼吁先把基础功能做好
  据 Neowin 报道,在 2021 年审查 Windows 11 时,该网站给它打了 6.5/10 的分数,同时表示“简化 UI 并不是糟糕的主意,但半生不熟的方式并没有带来真正意义上的用户体验”。...
日期:07-18
微信新增锁定功能引热议!网友吐槽:QQ都用十几年了「微信锁是干什么用的」
快科技5月25日消息,近日微信Windows版开始推送3.9.5版本更新,其中带来了一个新功能锁定。简单来说,在锁定之后别人就无法在电脑上查看微信了,在办公室尤为实用,可以避免被同事看...
日期:05-25
3月1日上线全国外卖服务?抖音回应:无具体时间表「抖音外卖功能什么时候上线」
抖音也要加入美团、饿了么外卖大军?阿里巴巴农村淘宝今日,有消息称,抖音将在3月1日上线全国外卖服务,目前已在北京、上海、成都三地内测。椰子汁泡咖啡oppo find x6标准版是直屏...
日期:02-10
微软:目前Xbox Series X/S游戏机机无涨价计划_xbox series s 降价
IT之家 8 月 26 日消息,索尼已宣布在全球范围内提高其 PlayStation 5 游戏机价格,其中国行涨价 400 元 —— 但美国地区除外。在欧洲,该游戏机价格大幅上涨 50 欧元(约 341.5 元...
日期:09-22
腾讯地图车位级导航功能落地北京丰台站_腾讯地图有没有车道级导航
  来源:北京商报蔚来一共有多少个换电站利润最高的车企  北京商报讯(记者 魏蔚)9月27日,最新版腾讯地图App上线了车位级导航功能,目前该功能已落地北京丰台站。用户在腾讯地...
日期:09-30
迅雷股份占比「迅雷:第二季度营收7830万美元 同比增长41.9%」
  讯8月16日晚间消息,今日,迅雷公布了截至2022年6月30日第二季度未经审计的财报。据财报显示,迅雷第二季度总营收为7,830万美元,同比增长41.9%,符合预期收入指引。基于通用会计...
日期:09-27
技术领先,追求卓越 | 新华三S12500R融合交换路由器荣获IT168“2022年度技术卓越奖”
  近日,紫光股份旗下新华三集团推出的S12500R融合交换路由器,凭借良好的技术性能与出色市场表现,在业界知名IT垂直门户媒体IT168的年度评选中脱颖而出,荣获“2020年度技术卓...
日期:07-10
京东11.11电脑组件战绩创新高,截至31日22点全品类销售额超去年全周期
在空前的优惠力度以及海量品质好物的充足供给下,消费者的购物热情被全面调动起来。京东11. 11 开启以来,大量品牌和商家刷新销售新纪录。其中,在电脑组件品类,显卡、显示器、固...
日期:11-04