您的位置:首页 > 互联网

破解一切模态,无限接近AGI!新加坡华人团队开源全能大一统多模态大模型

发布时间:2023-09-18 18:57:05  来源:互联网     背景:


新智元报道

编辑:好困

【新智元导读】继各类输入端多模态大语言模型之后,新加坡国立大学华人团队近期开源了一种支持任意模态输入和任意模态输出的大一统多模态大模型,火爆AI社区。

继ChatGPT引爆2023年的AI潮后,各类开源LLM也陆续问世。

紧接着,为了更好地模拟世界,研究人员又将纯语言的大模型,扩展到了处理语言之外的多模态大语言模型——

诸如支持图像类的MiniGPT-4、BLIP-2、Flamingo、InstructBLIP等,支持视频类的Video-LLaMA, PandaGPT等,以及支持声音类的SpeechGPT等等。

然而目前的多模态LLM,距离真正人类级别的AGI,总感觉少了点那味儿。

大一统通用多模态大模型来了

正当大家都在期待OpenAI未来要发布的GPT-5是否实现了任意模态大一统功能时,来自于新加坡国立大学NExT++实验室的华人团队出手了!

就在最近,团队正式开源了一款大一统通用多模态大模型——NExT-GPT,可以支持任意模态输入到任意模态输出。

目前,NExT-GPT的代码已经开源,并且还上线了Demo系统。


项目地址:https://next-gpt.github.io

代码地址:https://github.com/NExT-GPT/NExT-GPT

论文地址:https://arxiv.org/abs/2309.05519

NExT-GPT一经发布,便受到了AI社区的大量关注。

有网友表示,NExT-GPT标识着全能型LLM的到来:




也有网友赞叹,这才是未来的LLM大趋势(大一统任意模态输入输出的LLM):


据作者自述,实验室在多模态学习方向的研究有着多年的耕耘,具有深厚的积累。而NExT-GPT的取名也双关了实验室的名字以及GPT of Next generation的寓意。

话不多说,直接上效果

接下来,咱就来看看NExT-GPT到底可以实现哪些功能!

- 文本 → 文本 + 图像 + 音频

- 文本 + 图像 → 文本 + 图像 + 视频 + 图像

- 文本 + 视频 → 文本 + 图像

- 文本 + 视频 → 文本 + 音频

- 文本 + 音频 → 文本 + 图像 + 视频

- 文本 → 文本 + 图像 + 音频 + 视频

- 文本 → 文本 + 图像

- 文本 + 视频 → 文本 + 图像 + 音频

- 文本 → 文本 + 图像 + 音频 + 视频

- 文本 → 文本 + 图像

可看到,NExT-GPT能够准确理解用户所输入的各类组合模态下的内容,并准确灵活地返回用户所要求的甚至隐含的多模态内容,从而输出图像、视频以及声音。

其中,常见的图生文、图生视频、看图像/声音/视频说话、图像/声音/视频问答等问题统统不在话下,统一了跨模态领域的大部分常见任务,做到了真正意义上的任意到任意模态的通用理解能力。

此外,作者还给出一些定量的实验结果验证,感兴趣的同学可以在论文中阅读详细内容。

技术点解析

众所周知,人类的认知和沟通必须无缝地在任何信息模态之间进行转换——我们不仅仅可以理解多模态内容,还能够以多模态的方式灵活输出信息。

但现有的大语言模型,一方面是局限于某种单一模态信息的处理,而缺乏真正任意模态的理解;另一方面是只关注于多模态内容在输入端的理解,而不能以任意多种模态的灵活形式输出内容。

那么,NExT-GPT又是如何实现任意模态输入到任意模态输出的呢?

原理其实非常简单,作者甚至表示在技术层面上没有显著的创新点——

通过有机连接现有的开源1)LLM,2)多模态编码器和3)各种模态扩散解码器,便构成了NExT-GPT的整体框架,实现任意模态的输入和输出,可谓大道至简。


整体来说,模型呈现为一个编码端-推理中枢-解码器三层架构:

- 多模编码阶段:

利用已开源的编码器对各种输入模态进行编码,然后通过一个投影层将这些特征投影为LLM所能够理解的类似语言的表征。中文作者采用了MetaAI的ImageBind统一多模态编码器。

- 推理中枢阶段:

利用开源LLM作为核心大脑来处理输入信息,进行语义理解和推理。LLM可以直接输出文本,同时其还将输出一种模态信号token,作为传递给后层解码端的指令,通知他们是否输出相应的模态信息,以及输出什么内容。作者目前采用了Vicuna作为其LLM。

- 多模生成阶段:

利用各类开源的图像扩散模型、声音扩散模型以及视频扩散模型,接收来自LLM的特定指令信号,并输出所对应的模型内容(如果需要生成的指令)。

在推理时,给定任意组合模态的用户输入,通过模态编码器编码后,投影器会将其转换为特征传递给LLM(文本部分的输入将会直接出入到LLM)。

然后LLM将决定所生成内容,一方面直接输出文本,另一方面输出模态信号token。

如果LLM确定要生成某种模态内容(除语言外),则会输出对应的模态信号token,表示该模态被激活。


技术示意图

文中作者指出,NExT-GPT可能并不是实现任意模态输入到任意模态输出功能的首个工作。目前有两类前驱工作:

- 一类是不久前所发布的CoDi模型,其整合了各种模态的diffusion模型,可以同时处理和生成各种组合的模态内容。

然而作者指出,CoDi由于缺乏LLMs作为其核心部件,其仅限于成对(Parallel)内容的输入和生成,而无法实现复杂的内容推理和决策,根据用户输入的指令灵活相应。

- 另一类工作则试图将LLMs与现有的外部工具结合,以实现近似的任意多模态理解和生成,代表性的系统如Visual-ChatGPT和HuggingGPT。

但作者指出,由于这类系统在不同模块之间的信息传递完全依赖于LLM所生成的文本,其割裂、级联的架构容易不可避免地引入了噪音,降低不同模块之间的特征信息传递效用。并且其仅利用现有外部工作进行预测,缺乏一种整体的端到端训练,这对于充分理解用户的输入内容和指令是不利的。

相比之下,NExT-GPT却良好地解决了上述的现有工作的问题——既保证具有较好的学习成效,又全面降低、控制学习成本。

关键技术

- 关键点 1:低成本实现复杂推理+多模态in和多模态out

如前文所述,不仅要继承LLM所具备的复杂内容理解和推理能力,还需要实现任意模态的输入和输出。

若考虑从零开始构建整个系统,代价将会巨大(除非是大厂才能承担成本),也不利于开源和传播。考虑到现有的大模型已经基本实现了多模态的输入,为实现全能的大一统多模态能力,因此最关键的一点在于高性能的多模态输出。

为此,NExT-GPT完全基于现有开源的高性能模块(比如目前性能最强的扩散模型),充分站在巨人的肩膀上,以最低的成本实现大一统多模态大模型的构建目标(实验室可承担级别的成本)。

- 关键点 2:高效率端到端训练和模态对齐学习

妥当的、端到端的系统训练是NExT-GPT区别于现有其他组合型统一大模型系统最重要的一点,也是保证NExT-GPT具有优秀性能的前提。另一方面,还需要充分对齐系统中的所有模态的特征表征。

研究亮点

首先,NExT-GPT考虑分别在编码层-LLM之间以及LLM-解码层之间插入投影层(Projection Layers)。

在冻结大规模参数的基座编码层-LLM-解码层情况下,仅去训练参数量极低的投影层部分(以及在指令微调时基于LoRA的LLM低代价更新),作者实现了仅仅1%参数量的训练代价。


具体通过1)以LLM为中心的编码端多模态对齐学习,和2)局部微调的解码端指令跟随增强学习实现。


另外,对于多模态大模型,为确保其能够充分忠于用户指令而响应,进一步的指令调整(IT)是非常有必要的。

不同于现有的多模态大模型其输出端仅涉及到文本,NExT-GPT系统的输入和输出端同时覆盖了各类模态信息。

为此,作者提出了一种模态切换指令微调学习(Modality-switching Instruction Tuning,MosIT),技术内涵如下图所示。

同时,由于现存的多模态指令微调数据集都无法满足任意多模态LLM场景(即MosIT)的要求,作者构建了一套MosIT数据集。

该数据涵盖了各种多模态输入和输出,提供了必要的复杂性和变异性,帮助提升NExT-GPT获得优越的多模态指令跟随和相应能力。


结论与展望

基于NExT-GPT,后续的研究工作可以考虑以下几个方面:

1. 模态与任务扩展:

受限于现有资源,目前作者所开源的NExT-GPT系统仅支持四种模态:语言、图像、视频和音频。

比特币市值 茅台

作者表示,后续会逐步扩展到更多的模态(例如,网页、3D视觉、热图、表格和图表)和任务(例如,对象检测、分割、定位和跟踪),以扩大系统的普遍适用性。

2. 考虑更多基座LLM:

目前作者实现了基于7B版本的 Vicuna LLM,其表示下一步将整合不同大小的LLM,以及其他LLM类型。

3. 多模态生成策略:

目前版本的NExT-GPT系统仅考虑了基于扩散模型的纯输出方式的多模态输出。

然而生成模式容易输出错误幻想内容(Hallucination),并且输出内容的质量往往容易受到扩散模型能力的限制。

因此,进一步提升扩散模型的性能很关键,这能直接帮助提高多模态内容的输出质量。

另外,实际上可以整合基于检索的方法来补充基于生成的过程的弊端,从而提升整体系统的输出可靠性。

4. 降低多模态支持成本:

NExT-GPT考虑了ImageBind来统一多种模态的编码,从而节省了在编码端的代价。而对于多模态输出端,作者简单地集成了多个不同模态的扩散模型。

在之后的研究中,可以考虑进一步降低对更多模态的支持的成本。尤其是,如何防止随着模态的增加而动态增加解码器。

比如,可以考虑将一些支持不同模态生成(但具有模态共性)的扩散模型进行复用。

5. MosIT数据集扩展:

目前NExT-GPT所使用的MosIT数据集规模受限,这也会限制其与用户的交互表现。 后续研究 可以进一步提升模态切换指令微调学习策略以及数据集。

总体上,NExT-GPT系统展示了构建一个通用大一统多模态的AI模型的可能性,这将为AI社区中后续的更人类水平的人工智能研究提供宝贵的借鉴。

参考资料:

https://github.com/NExT-GPT/NExT-GPT



返回网站首页

本文评论
iPhone 14 Plus开售既破发:掉价400多元 罕见被冷落「iphone13卖爆了」
本周,iPhone 14系列中的最后一款机型iPhone 14 Plus正式发布,首批预约的用户在本周已经陆续拿到了手机,而尴尬的是iPhone 14 Plus首销的当天就破发了,渠道原价6999元的原价已经...
日期:10-11
又崩了!苹果Apple ID出现大面积故障:登录、支付都不行_apple id出现问题怎么办
快科技5月11日消息,继苹果天气App频繁崩溃后,苹果Apple ID今日下午也出现了大面积故障。电小二户外移动电源价格不少苹果用户反馈称,Apple ID/iCloud账户突然被登出,并且无法进...
日期:05-11
男子多次剪断共享单车刹车线被抓:系附近拉客麻木车司机_共享单车刹车失灵撞伤人责任
6月29日消息,近日在湖北黄冈,一多次蓄意破坏共享电动车的男子被成功抓获。日前,有网友发视频称一男子多次对共享电动车进行破坏,从其拍摄的现场画面看,一男子头戴草帽,伏着身子对...
日期:06-30
SiteServer CMS柏袍:新建网站明确核心功能最重要
  一般来讲,在一个网站项目实施之前,网站主都应该对网站有一个初步的规划方案,包括网站规模、用户群定位、内容选取方向等要素。规划一个网站,会给网站明确的下一个定位,并确...
日期:07-29
淘宝与雅虎日本联合推出全球最大的在线市场 超过eBay(雅虎日本购物网站网址是多少)
中国最大的零售网站淘宝和雅虎日本本周二联合推出了一项服务。这笔交易旨在通过抓住亚洲电子商务消费者用户群迅速增长的机会创建全球最大的在线市场。 这项服务预计在用...
日期:07-29
气温升高 “汽车防晒“火了!贴膜选金属还是陶瓷膜 附专业建议
快科技7月16日消息,当前全国正值夏季,随着气温升高,不少车主也开始为自己的爱车准备防晒降温套装,有整车防晒、前风挡防晒、天幕隔热等各类物品,此类商品的销量也同步暴增。目前...
日期:07-17
还像6岁小孩!92岁巴菲特:宁愿少活一年 也要吃热狗喝可乐_巴菲特喝可乐健康吗
4月13日消息,日前,股神”巴菲特在日本接受媒体采访时表示,我已经92岁了,但习惯还跟6岁小孩一样”。巴菲特直言,如果有人告诉我,一生只吃西兰花和其他一些东西,而不是吃我喜欢吃的东...
日期:04-13
京东方供货 小屏旗舰归来-苹果iPhone SE4要用国产OLED_苹果se原装国产屏幕区别
在手机屏幕动辄6.5寸起的今天,很多人还是希望有一款小屏旗舰的,但iPhone SE之前的屏幕及刘海设计又不讨人喜欢,明年的iPhone SE4设计大改,用上6.1寸OLED屏,尺寸就非常合适了。iPh...
日期:09-18
两大奖项收入囊中!旺链科技荣获“年度金融科技最具成长价值奖”&“最佳团队奖”
  1月16日,以“创新、应用、赋能金融科技新时代”为主题的“第一届长三角金融科技创新与应用全球大赛总决赛暨科技赋能主流金融高峰论坛”在上海圆满收官。   过关斩将...
日期:09-27
Android 14新功能曝光:支持平板电脑和折叠屏手机切换任务栏模式_安卓平板任务栏
根据最新的Android 14测试版显示,谷歌可能会让用户自定义平板和折叠屏设备上的任务栏样式。Android Police的Mishaal Rahman在Android 14 Beta 3中发现了一个隐藏的ENABLE_TA...
日期:06-29
华为云MySQL新增MDL锁视图特性,快速定位元数据锁问题
  MDL锁(Metadata Lock),即元数据锁。元数据指的是描述数据的数据,对数据及信息资源的描述性信息,在数据库中元数据即数据字典信息,包括db,table,function,procedure,trigger,even...
日期:02-11
张雪峰曾称每年仅讲课就能挣几百万 坐拥三家公司估值好几个亿「张雪峰老师公司在哪」
张雪峰一直想要传播教育的声音,并通过线上课程为更多边远地区的学生提供帮助。但是,他同时也是一个精明的商人,在借助各种线上和线下教育课程扩大自己的关注度的同时,也通过这些...
日期:06-26
证据确凿!网络攻击西北工业大学的是美国国家安全局_西北工业大学 网络安全
  【环球时报-环球网报道 特约记者袁宏】西北工业大学6月份曾发布声明,称有来自境外的黑客组织和不法分子向学校师生发送包含木马程序的钓鱼邮件,企图窃取相关师生邮件数据...
日期:09-06
南方将迎来一次强降雪天气「雨雪降温重心转移至南方 大范围雨雪天气明日结束」
1月15日消息,中国天气网消息,今天雨雪范围将进一步缩减,雪线南压;明天,大范围雨雪天气将基本结束。气温方面,今天降温重心主要在南方。随着寒潮过程收尾,明天起,大部气温逐渐回升。...
日期:01-15
美团公司大股东「美团:获贝莱德增持975万股公司股份」
  据港交所9月23日披露文件,贝莱德9月20日增持975万股美团股份,其持股比例从4.94%上升到5.11%。应用商店属于腾讯软件吗区块链对我国农业发展的意义...
日期:09-26
苹果6s 钉子户「iPhone6成淘汰产品!官方徒手拔了钉子户」
中关村在线消息:10月8日,据相关爆料,苹果在近日更新了古董和淘汰产品清单,停售5年之久的iPhone6正式被官方列列入淘汰产品清单。据悉,苹果会将已停售五年、未满7年的产品列入“古...
日期:10-16
新能源不敌石油 特斯拉市值被埃克森美孚超越_特斯拉市值蒸发百亿美元 新闻
投资者正转向石油公司华为mate50起步价索尼845机型凤凰网科技讯 北京时间12月21日消息,随着投资者纷纷涌向石油巨头,逃离埃隆马斯克(Elon Musk)的电动汽车公司,特斯拉市值自202...
日期:12-21
中手游10月5日斥资116.8万港元回购79万股_中手游香港IPO,曾是首家美股上市手游公司
10月6日消息,中手游于10月5日斥资116.8万港元回购79万股公司股份,回购价格每股为1.46港元-1.5港元。英伟达rtx 4090显卡昨日收盘,移卡股价报1.47港元/股,今日开盘小幅上升,截止发...
日期:10-08
双十一活动商家不承认「上海双11期间禁止电商虚假打折标价 不得强制商户二选一」
10月11日 消息:今日,上海市市场监管局发文称,为规范“双十一”期间网络集中促销经营行为,营造公平有序的网络竞争环境和安全放心的消费环境,市市场监管局提前开展行政指导,召集本...
日期:10-28
与傅盛朋友圈“激战”后朱啸虎又发文:不要迷信通用大模型
凤凰网科技讯6月28日消息,猎豹移动董事长兼CEO傅盛与金沙江创投董事总经理朱啸虎朋友圈“激战互怼”引发网络热议。朱啸虎又发了朋友圈进行了解释,他表示,昨天的对话造成很多误...
日期:06-28