您的位置:首页 > 互联网

实现输入到输出模态自由, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了

发布时间:2023-09-19 12:43:08  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源一种支持任意模态输入和任意模态输出的真正大一统多模态大模型,火爆 AI 社区。

ChatGPT 的诞生,引爆了2023年的基于大语言模型的 AI 浪潮,此后各类开源大语言模型陆续问世,包括 Flan-T5、Vicuna、 LLaMA、Alpaca 等。随后,社区继续发力,为模拟这个多模态的世界,研究者们将纯语言的大模型扩展到了处理语言之外的多模态大语言模型,诸如支持图像类的 MiniGPT-4、BLIP-2、Flamingo、InstructBLIP 等,支持视频类的 Video-LLaMA、PandaGPT 等,以及支持声音类的 SpeechGPT 等等。

但目前的多模态大语言模型,距离真正人类级别的 AGI,总感觉少了点内味。没错,人类的认知和沟通必须无缝地在任何信息模态之间进行转换。作为人类,我们不仅仅可以理解多模态内容,还能够以多模态的方式灵活输出信息。

对于现有的大语言模型,一方面,其大多局限于关注于某种单一模态信息的处理,而缺乏真正任意模态的理解;另一方面,其都关注于多模态内容在输入端的理解,而不能以任意多种模态的灵活形式输出内容。

正当大家都在期待 OpenAI 未来要发布的 GPT-5是否能实现任意模态大一统功能时,几天前,来自于新加坡国立大学的 NExT++ 实验室的华人团队率先开源了一款大一统通用多模态大模型NExT-GPT,支持任意模态输入到任意模态输出。目前 NExT-GPT 的代码已经开源,并且上线了 Demo 系统。

  • 项目地址:https://next-gpt.github.io

  • 代码地址:https://github.com/NExT-GPT/NExT-GPT

  • 论文地址:https://arxiv.org/abs/2309.05519

该实验室在多模态学习方向的研究有着多年的耕耘,具有深厚的积累,而 NExT-GPT 的取名也双关了实验室的名字以及 GPT of Next generation 的寓意。

NExT-GPT 一经发布便受到了 AI 社区的大量关注。有网友表示,NExT-GPT 标识着全能型 LLM 的到来:

也有网友赞叹,这才是未来的 LLM 大趋势(大一统任意模态输入输出的 LLM):

接下来,我们来看看 NExT-GPT 可以实现哪些功能:

  • Text → Text + Image + Audio

  • Text + Image → Text + Image + Video + Image

  • Text + Video → Text + Image

  • Text + Video → Text + Audio

  • Text + Audio → Text + Image + Video

  • Text → Text + Image + Audio + Video

  • Text → Text + Image

  • Text + Video → Text + Image + Audio

  • Text → Text + Image + Audio + Video

  • Text → Text + Image

可看到,NExT-GPT 能够准确理解用户所输入的各类组合模态下的内容,并准确灵活地返回用户所要求的甚至隐含的多模态内容,常见的图生文、图生视频、看图像 / 声音 / 视频说话、图像 / 声音 / 视频问答等问题统统不在话下,统一了跨模态领域的大部分常见任务,做到了真正意义上的任意到任意模态的通用理解能力。

作者在论文中还给出一些定量的实验结果验证,感兴趣的读者可以阅读论文内容。

技术细节

英特尔酷睿9代处理器

那 NExT-GPT 是如何实现任意模态输入到任意模态输出的?原理非常简单,作者甚至表示在技术层面上没有显著的创新点:通过有机地连接现有的开源1) LLM,2) 多模态编码器和3) 各种模态扩散解码器,便构成了 NExT-GPT 的整体框架,实现任意模态的输入和输出,可谓大道至简。

NExT-GPT 整体呈现为一个编码端 - 推理中枢 - 解码器三层架构:

  • 多模编码阶段:利用已开源的编码器对各种输入模态进行编码,然后通过一个投影层将这些特征投影为 LLM 所能够理解的类似语言的表征。作者采用了 MetaAI 的 ImageBind 统一多模态编码器。

  • 推理中枢阶段:利用开源 LLM 作为核心大脑来处理输入信息,进行语义理解和推理。LLM 可以直接输出文本,同时其还将输出一种模态信号token,作为传递给后层解码端的指令,通知他们是否输出相应的模态信息,以及输出什么内容。作者目前采用了 Vicuna 作为其 LLM。

  • 多模生成阶段:利用各类开源的图像扩散模型、声音扩散模型以及视频扩散模型,接收来自 LLM 的特定指令信号,并输出所对应的模型内容(如果需要生成的指令)。

模型在推理时,给定任意组合模态的用户输入,通过模态编码器编码后,投影器将其转换为特征传递给 LLM(文本部分的输入将会直接出入到 LLM)。然后 LLM 将决定所生成内容,一方面直接输出文本,另一方面输出模态信号 token。如果 LLM 确定要生成某种模态内容(除语言外),则会输出对应的模态信号 token,表示该模态被激活。技术示意图如下:

文中作者指出,NExT-GPT 可能并不是实现任意模态输入到任意模态输出功能的首个工作。目前有两类前驱工作:

  • 一类是不久前所发布的 CoDi 模型,其整合了各种模态的 diffusion 模型,可以同时处理和生成各种组合的模态内容。然而作者指出,CoDi 由于缺乏 LLMs 作为其核心部件,其仅限于成对(Parallel)内容的输入和生成,而无法实现复杂的内容推理和决策,根据用户输入的指令灵活响应。

  • 另一类工作则试图将 LLMs 与现有的外部工具结合,以实现近似的任意多模态理解和生成,代表性的系统如 Visual-ChatGPT 和 HuggingGPT。但作者指出,由于这类系统在不同模块之间的信息传递完全依赖于 LLM 所生成的文本,其割裂、级联的架构容易不可避免地引入了噪音,降低不同模块之间的特征信息传递效用。并且其仅利用现有外部工作进行预测,缺乏一种整体的端到端训练,这对于充分理解用户的输入内容和指令是不利的。

而 NExT-GPT 可以良好地解决如上所述的现有工作问题。那么 NExT-GPT 有哪些关键点呢?

  • 关键点-1:低成本实现复杂推理 + 多模态 in 和多模态 out

如前文所述,不仅要继承 LLM 所具备的复杂内容理解和推理能力,还需要实现任意模态的输入和输出。若考虑从零开始构建整个系统,代价将会巨大(除非是大厂才能承担成本),也不利于开源和传播。考虑到现有的大模型已经基本实现了多模态的输入,为实现全能的大一统多模态能力,因此最关键的一点在于高性能的多模态输出。为此,NExT-GPT 完全基于现有开源的高性能模块(比如目前性能最强的扩散模型),充分站在巨人的肩膀上,以最低的成本实现大一统多模态大模型的构建目标(实验室可承担级别的成本)。

  • 关键点-2:高效率端到端训练和模态对齐学习

妥当的、端到端的系统训练是 NExT-GPT 区别于现有其他组合型统一大模型系统最重要的一点,也是保证 NExT-GPT 具有优秀性能的前提。另一方面,还需要充分对齐系统中的所有模态的特征表征。为了既保证具有较好的学习成效,又全面降低、控制学习成本,本工作包含了以下的亮点。

首先,NExT-GPT 考虑分别在编码层 - LLM 之间以及 LLM - 解码层之间插入投影层(Projection Layers)。在冻结大规模参数的基座编码层 - LLM - 解码层情况下,仅去训练参数量极低的投影层部分(以及在指令微调时基于 LoRA 的 LLM 低代价更新),作者实现了仅仅1% 参数量的训练代价。

具体通过1)以 LLM 为中心的编码端多模态对齐学习,和2)局部微调的解码端指令跟随增强学习实现。

另外,对于多模态大模型,为确保其能够充分忠于用户指令而响应,进一步的指令调整(IT)是非常有必要的。不同于现有的多模态大模型其输出端仅涉及到文本,我们的 NExT-GPT 系统,其输入和输出端同时覆盖了各类模态信息。

为此,作者提出了一种模态切换指令微调学习(Modality-switching Instruction Tuning,MosIT),技术内涵如下图所示。同时,由于现存的多模态指令微调数据集都无法满足任意多模态 LLM 场景(即 MosIT)的要求,我们因此构建了一套 MosIT 数据集。该数据涵盖了各种多模态输入和输出,提供了必要的复杂性和变异性,帮助提升 NExT-GPT 获得优越的多模态指令跟随和相应能力。

结论和未来展望

总体上,NExT-GPT 系统展示了构建一个通用大一统多模态的 AI 模型的美好景愿和喜人的可能性,这将为 AI 社区中后续的更人类水平的人工智能研究提供宝贵的借鉴。

基于 NExT-GPT,后续的研究工作可以考虑以下几个方面:

1. 模态与任务扩展:受限于现有资源,目前作者所开源的 NExT-GPT 系统仅支持四种模态:语言、图像、视频和音频。作者表示,后续会逐步扩展到更多的模态(例如,网页、3D 视觉、热图、表格和图表)和任务(例如,对象检测、分割、定位和跟踪),以扩大系统的普遍适用性。

2. 考虑更多基座 LLM:目前作者实现了基于7B 版本的 Vicuna LLM,其表示下一步将整合不同大小的 LLM,以及其他 LLM 类型。

3. 多模态生成策略:目前版本的 NExT-GPT 系统仅考虑了基于扩散模型的纯输出方式的多模态输出。然而生成模式容易输出错误幻想内容(Hallucination),并且输出内容的质量往往容易受到扩散模型能力的限制。因此,进一步提升扩散模型的性能很关键,这能直接帮助提高多模态内容的输出质量。另外,实际上可以整合基于检索的方法来补充基于生成的过程的弊端,从而提升整体系统的输出可靠性。

4. 降低多模态支持成本:可以考虑进一步降低对更多模态的支持的成本。NExT-GPT 考虑了 ImageBind 来统一多种模态的编码,从而节省了在编码端的代价。而对于多模态输出端,作者简单地集成了多个不同模态的扩散模型。如何防止随着模态的增加而动态增加解码器是后续的重要研究方面。比如可以考虑将一些支持不同模态生成(但具有模态共性)的扩散模型进行复用。

5. MosIT 数据集扩展:目前 NExT-GPT 所使用的 MosIT 数据集规模受限,这也会限制其与用户的交互表现。后续研究可以进一步提升模态切换指令微调学习策略以及数据集。


返回网站首页

本文评论
并购“深圳忆数存储”,上海威固信息以全新产业基地迈向国际化市场
  2021年6月28日,由上海威固信息技术股份有限公司投资建设的德清·威固科技园暨智能制造及封测基地举行了开园庆典暨投产启动仪式,董事长吴佳先生率威固信息全体管理团队...
日期:06-28
IBM watsonx破解行业AI的“珍珑棋局”
毫无疑问,ChatGPT是今年的世界顶流……相关数据显示:OpenAI网站的流量在 4 月份就超过了 18 亿,进入了全球流量排名前20,同时也引发了AIGC的热潮。IDC也做出预测: 2026 年全球...
日期:09-15
买坚果激光投影sa还是u1「选投影等于选画质,坚果N1S Pro 4K用三色激光+4K打造好画质」
任何新科技的崛起,都是踩着旧技术上位的,三色激光亦是如此。根据数据显示, 2023 上半年三色激光投影仪销量增长了38%,超越LED投影成了消费者的选择。智能投影主流光源技术的易位...
日期:09-11
雅虎董事肯尼否认竞选CEO 将积极参与战略评估
  北京时间11月9日早间消息,据国外媒体报道,知情人士透露,在上周宣布不会成为雅虎CEO候选人后,雅虎董事大卫·肯尼(Davdi Kenny)将积极参与战略评估。   外界此前曾经普遍...
日期:07-24
全球首发航天级天工散热系统,一加首次公布性能技术战略
7 月 27日,一加在2023年ChinaJoy上首次全面阐述一加面向未来的性能技术战略,并发布了领先的前沿技术--全球首创的航天级「天工散热系统」,这项技术将由8月发布的一加 Ace 2 Pro...
日期:09-10
微信称不会显示已读 不少网友也反对上线已读功能「微信有显示已读和未读的功能吗」
最近,“微信要是能显示已读就好了”上了热门话题,引起了网友们的热议。腾讯教育 王涛三星国米定制干衣机好用吗绝大多数网友对这个想法表示反对,网友 “坦言,自己如果被微信暴露...
日期:07-12
nvidia显卡降噪技术_大神轻松破解NVIDIA RTX降噪技术:任何N卡都能用
  日前,NVIDIA发布了一款RTX Voice软件,搭配图灵架构的GeForce RTX、Quadro RTX系列显卡,可以利用AI人工智能技术,进行主动背景降噪,提升语音聊天、音频录制的质量。   考虑...
日期:02-03
苹果15信号有救了!高通商用最强5G基带:全球首个支持Wi-Fi7商用方案
伴随着骁龙8 Gen2的发布,高通也将要正式开始商用X70 5G基带了,当然下一代的iPhone 15也会用它,所以不用担心信号差了?需要明确的是,第二代骁龙8的X70 5G基带芯片是首个集成AI处理...
日期:11-17
三星s7562i怎么样「三星s7572怎么样」
三星S7562i是一款2012年发布的智能手机,它运行Android 4.0系统,搭载了1GHz单核处理器和512MB的RAM。它还有4GB的内置存储空间,可扩展到32GB,以及一块4英寸TFT屏幕和一块5百万像...
日期:05-29
关于汽车导航的广告「汽车导航弹窗广告?网友担心影响驾驶安全 车企回应」
  中新网9月29日电(中新财经记者 吴涛)近日,“车载导航中控屏出现弹窗广告”引发关注,车企回应称“非弹窗广告”,但表示“不会再进行类似推送”。  到底发生了什么?为何导航出...
日期:10-02
代码泄密 苹果AR/VR头显居然有两款_苹果何时发布ARVR头显
众人皆知苹果正在内部开发1-2款AR/VR头显产品用来替代iPhone,成为下一代个人移动设备。如果传言可信的话,它将在2024年的时间内推出。随着新核心硬件的曝光,与之匹配的新系统也...
日期:12-02
红枫科技智能财税软件为代账行业注入全新能量
  财务软件是财务代账工作必不可少的核心配套。从以前算盘和手工记账时代,到电脑普及后财务软件的出现,机器取代人工做账,数据更准确,会计做账效率更高。   我国财务软件已...
日期:03-13
快手2020年一季度营收「快手一季度营收252.2亿同比增19.7%,净利4200万元」
5月22日消息,快手科技发布2023年第一季度业绩,总营收同比增长19.7%至252.2亿元,超越彭博市场一致预期的245亿元。本季度,快手首次实现上市后的集团层面整体盈利,经调整净利润达42...
日期:05-22
ios 15啥时候发布「报告称苹果如期发布 iPhone 15 系列,但初期供货较紧张」
IT之家 7 月 21 日消息,美银全球研究(BofA Global Research)分析师莫汉日前发布研报,认为苹果将推迟到第 4 季度推出 iPhone 15 系列。国外科技媒体 The Information 并不赞同这...
日期:07-21
暑热三伏 液冷一夏|超聚变打造清凉绿色算力_超聚变技术公司会不会上市
小暑不算热,大暑三伏天,湿热交蒸在此时达到顶点。不久前,全国多个省市陆续遭遇40℃高温侵袭,面对高温环境的严峻挑战,数据中心不堪重负的案例比比皆是。为了让服务器保持清凉舒适...
日期:07-21
香港恒生指数收涨0.33% 零跑汽车收盘跌超22%_今天香港恒生指数为什么跌
  讯 9月30日下午消息,香港恒生指数收涨0.33%,本周累跌3.96%;恒生科技指数跌0.93%,本周累跌3.89%。昨日上市的零跑汽车今日收盘跌超22%,两日跌幅近50%;蔚来跌超7%,理想汽车跌超4%...
日期:10-01
智慧医疗“远程出海”,贝锐向日葵x飞易联远程医疗方案助力中几友好医院项目
(原标题:智慧医疗“远程出海”,贝锐向日葵x飞易联远程医疗方案助力中几友好医院项目) 今年是中国援外医疗队派遣60周年,同时是中...
日期:08-28
sony 手机「sonyericsson手机」
Sony Ericsson is a brand of mobile phones that was created by the merger of two well-known companies, Sony and Ericsson. This brand of mobile phones was popular...
日期:05-29
亏上热搜!人们为啥不爱吃海底捞了?“最牛服务员”CEO首张成绩单,透露重大信号
文 |;黎灵希 罗茂林   8月14日晚间,海底捞发布业绩预告,预计上半年收入不低于167亿元(人民币,如无标明,下同),预期净亏损额约在2.25亿元至2.97亿元之间。   这是“最牛服务员”...
日期:08-17
腾讯开启最强回购!港股年内回购超600亿,什么信号?小米、京东齐发公告
  文/陈曦  港股市场掀回购热浪!  腾讯控股公告,9月26日回购125万股,回购价格为273.2港元-287.4港元,共耗资约3.53亿港元,这已是腾讯连续第26个交易日进行回购,其年内累计回...
日期:09-27