规格拉满！Llama和Sora作者都来刷脸的中国AI春晚，还开源了一大堆大模型成果

声明:本文来自于微信公众号量子位（ID:QbitAI），作者:鱼羊明敏，授权转载发布。

本周国内最受关注的AI盛事，今日启幕。

活动规格之高，没有哪个关心AI技术发展的人能不为之吸引——

Sora团队负责人Aditya Ramesh与DiT作者谢赛宁同台交流，李开复与张亚勤炉边对话，Llama2/3作者Thomas Scialom，王小川、杨植麟等最受关注AI创业者……也都现场亮相。

一年一度，中国“AI春晚”智源大会如约而至，依然AI大佬密度拉满，依然干货成果满满当当。

从学术向的“语言智能与视觉智能融合创造世界模拟器”，到产业向的“大模型价格战有何影响”，活动开启第一个上午，顶级AI学者、专家们的观点交锋已经让线上线下观众直呼过瘾。

不仅如此，主办方智源研究院，还抛出了一箩筐重磅新进展，开源开放的那种:

万亿稠密模型TeleFLM核心技术、训练细节、52B版本;
原生多模态大模型Emu3最新成果，以及轻量级图文多模态模型Bunny的参数、训练代码、训练数据;
千万级高质量指令微调数据集InfinityInstruct;
……

大模型趋势以来，创业公司大厂的动向吸引了诸多关注。

但更回归技术本身，当下大模型发展还需要关注哪些方面?是时候参考研究机构的动向和理解了。

智源大模型“全家桶”发布

智源研究院带来的最新发布主要有大模型进展以及底层算力基座。

智源大模型“全家桶”由4部分组成:

智源语言大模型
智源多模态大模型
智源具身大模型
智源生物计算大模型

首先在大语言模型方面，智源表示不会重复造轮子，最新发布的成果主要面向产业界正面临的共同难点，比如算力缺乏问题。

智源与中国电信人工智能研究院（TeleAI）联合研发了基于生长技术训练的全球首个低碳单体稠密万亿语言模型。

尽管模型参数规模达到万亿级别，但训练实际只用了112台A800，这相当于业界普通训练方案9%的算力资源。

通过优越超参预测技术，训练全过程零调整、零重试。

目前Tele-FLM1TB版本还在训练中，中间版Tele-FLM52B已开源。

评估结果显示，在中文方面，Tele-FLM的BPB曲线优于Llama3-70B。英文方面，其BPB评测接近Llama3-70B，优于Llama2-70B。

之后，团队将开源1TB版本，以及训练技术细节以及loss曲线。以期为开源社区提供一个优秀的稠密万亿模型的初始参数版本，避免万亿参数模型早期难以收敛等问题。

同时，智源对基于该基座模型训练出的对话模型Tele-FLM-Chat（52B）进行评测。

AlignBench评测显示，它已达到GPT-4中文语言能力的96%，总体能力可达GPT-4的80%。现在已在ModelScope上可体验。

算力之外，大模型应用落地的另一大挑战是幻觉问题。

在这方面，智源带来了通用向量模型BGE（BAAI General Embedding）。

该系列模型如今已是全球范围内下载量最高的国产AI模型，也是最普及的开源向量模型之一。

它基于无监督预训练和多阶段对比学习，构建了多语言关联文本数据集C-MTP。

从去年8月发布至今，BGE模型得到了全球主流应用大模型框架的集成，包括Hugging Face、LlamaIndex等。如Azure、AWS、火山引擎、腾讯云、华为云、百度智能云等主流云厂商，也都集成了BGE模型，对外提供商用。

其次，智源聚焦多模态领域，带来了最新进展——Emu3。

去年7月，智源研究院发布生成式多模态模型Emu，12月迭代至Emu2。

最新发布的Emu3采用自回归技术路径，将图像、视频、文字共同训练，统一实现了图像、视频、文字的输入和输出，并且具备更多模态可扩展性。

它具备图像生成能力、视频生成能力:

并且可以理解图像和视频内容:

目前，Emu3还在持续训练中，在经过安全评估后会逐步开源。Emu1和Emu2已经开源。

另外在多模态方面，智源还带来了一个轻量级图文模型:Bunny-3B/4B/8B。

该模型采用灵活架构，可基于不同视觉编码器，如EVA-CLIP、SigLIP;也能基于不同的语言基座模型，比如Phi、StableLM等。

Bunny的模型、数据、代码将全部开源。

第三，面向具身智能的终局，智源还带来了一个端到端具身导航大模型，并已在人形机器人上应用。

NaVid是世界首个端到端基于视频的多模态具身大模型，它实现了“输入视频和语言，输出动作”。它无需离线建图，是纯视觉、纯Sim2Real方案，能在虚拟世界中训练，在现实世界中直接泛化。

另外智源也关注了具身智能几个关键点。

比如通用抓取模型ASGrasp。通过在仿真系统内构建千万量级场景以及超过10亿抓取数据，实现了抓取技术显著提升，在工业级真机上能够实现超过95%的抓取成功率，打破世界纪录，该成果已被ICRA2024接收。

SAGE模型是一个操作系统大模型，基于三维视觉小模型和图文大模型，它能让机器人在操作失败后进行思考，就像人一样，然后重新规划动作，进而完成任务。该模型也被ICRA2024接收。

Open6DOR则是全球首个开放指令六自由度取放大模型系统，它能让机器人既关注物体的位置，也考虑物体的姿态，从而让抓取更有效。

基于如上成果，智源的具身智能已经可以理解人类的指令并进行对话、执行任务，比如在听到人类说“我渴了/我饿了”之后，它会递上可乐或橘子。

在实际落地方面，智源还与清华大学301研究院带来了全球首创智能心脏超声机器人。

最后，在生物计算方面，智源发布了OpenComplex2全原子生物分子模型。

这是一个decoder-only模型，它基于生成式AI，能在原子层面对RNA、DNA等小分子的结构和相互关系进行预测，精度可达超算水平。

在CAMEO蛋白质结构预测竞赛中，OpenComplex已经连续26个月稳居第一，在精度和宏观结构等方面均优于同期模型（如AlphaFold2）。同时也能对RNA、DNA、蛋白质复合物进行预测。

在与超算结果的对比中显示，OpenComplex已经初步具备通路预测能力。

以上便是智源在过去一年中在大模型领域方面的进展。

带来这些进展其实都离不开底层算力基座的支持。

去年，智源发布了FlagOpen1.0。这是一个面向异构芯片、支持多种框架的大模型全栈开源技术基座。

今年FlagOpen升级至2.0版本。在1.0的基础上，进一步完善了模型、数据、算法、评测、系统五大版图布局，旨在打造大模型时代的Linux。

同时，智源也构建了为大模型而生、支持异构芯片的算力集群“操作系统”FlagOS。

它包括异构算力智能调度管理平台九鼎、支持多元AI异构算力的并行训推框架FlagScale、支持多种AI芯片架构的高性能算子库FlagAttention和FlagGems，集群诊断工具FlagDiagnose和AI芯片评测工具FlagPerf。

可向上支撑大模型训练推理评测等，向下管理底层异构算力、高速网络、分布式存储等。

目前，FlagOS已支持了超过50个团队的大模型研发，支持8种芯片，管理超过4600个AI加速卡，稳定运行20个月，SLA超过99.5%。

此外，智源研究院还推出了开源Triton算子库、首个千万级高质量开源指令微调数据集InfinityInstruct、全球最大开源中英文多行业数据集IndustryCorpus等等新进展。

可见在过去一年中，智源研究院的脚步走得非常快、且布局广泛。

而值得关注的是，在发布新进展同时，智源研究院这一国内顶级AI研究机构，此次也明确地公布了对未来技术趋势的判断。

面向更前沿技术问题

携程订机票价格变化大

与大模型领域的工业界玩家不同，智源研究院是一家非营利研究机构，相较于短期应用，更聚焦AI的前沿研究。

在与智源研究院院长王仲远的交流中，他对此解释说:

企业已经在做的事，智源不会做，而是聚焦于更前沿的技术问题。

总结起来，智源对技术路线发展的判断很明确:

在基础模型层面上，是要解决大语言模型发展过程中面临的核心痛点。

比如算力问题。

2023年9月，智源研究院就联合中科院计算所、南洋理工大学、电子科技大学、哈尔滨工业大学等研究团队，提出了一种“生长策略”（growth strategy）。

简单来说，基于生长策略，模型的参数量在训练过程中并不是固定的，而是可以随着训练进行，从较小的参数规模扩展到更大的参数规模。

这次发布的稠密万亿参数语言模型Tele-FLM，就是通过生长技术来训练的。王仲远透露，训练这一模型只用了112台A800，也就是不到1000张卡。

又比如多模态问题。

尽管多模态已经成为当下大模型发展的主流方向，但在现阶段，很多多模态大模型其实是单一跨模态模型，无法同时实现视频、图片的生成和理解。

智源的Emu项目，旨在最终实现原生多模态世界模型。

从训练数据的角度，从一开始，文字、图像、视频数据就被放在一起联合训练;从技术路线的角度，智源也选择了难度更高的自回归路线而非Sora带火的DiT路线。

我们认为，像OpenAI，未来也可能会将ChatGPT和Sora做进一步的融合。

从技术判断上，我们想要瞄准真正的多模态大模型，因此选择了自回归这样一个我们认为终极的技术路线。

而在更具体的应用层面上，重点关注具身智能和生物计算，也并非是单纯追热点。

王仲远甚至主动降了一波预期:

大家要客观理性地来看待技术的发展周期，具身智能未来几年内也可能进入低谷。但我们坚信智能体会从数字世界进入到物理世界。

骆家庄是什么街道

有此布局的核心原因还是要做“原始的创新”、“集中资源关注核心技术的突破”，智源研究院认为，数字世界的智能体进入物理世界，主要有两条路线:

一是在宏观世界赋能硬件，也就是具身智能。

二是进入微观世界，也就是用大模型对生命分子进行研究。

这两条技术路线“会跟世界模型相互促进，并且最终实现AGI”。

值得关注的是，在更面向未来的技术路线选择之外，智源研究院在最新发布中，再次强调了开源开放。

比如Tele-FLM的核心技术“生长策略”，其技术细节此前就已完全公开。此番发布的多模态图文模型Bunny，同样是基座模型、模型参数、训练代码、训练数据全部开源。Tele-FLM的万亿参数版本和Emu3也计划在安全评估之后对外开源。

事实上，无论是高举高打的技术布局思路，还是一以贯之的技术共享模式，都是智源研究院创立之始就刻写在基因里的。

2018年，智源研究院作为人工智能领域的新型研发机构正式成立，其使命可以概括为:

推动5大源头创新，包括基础理论、学术思想、顶尖人才、企业创新和发展政策。
改变人工智能下一个10年，包括人才到生态，成果到系统。
创造30年后依然有价值的代表作:判断人工智能发展大方向，创造经得起时间检验的代表作。

2020年，智源“悟道”项目立项。2021年3月，悟道1.0发布，智源研究院正式使用“大模型”这个说法，此后被业界广泛采纳。

而悟道系列开源大模型，也成为过去一年中国产大模型快速发展的技术基石之一。一方面，悟道的7个开源模型成果涵盖文本类、图文类、蛋白质类等多个领域，在发布时连续创下“中国首个+世界最大”记录。另一方面，悟道系列也为中国大模型产业培养了一大批大模型人才，不少现如今在产业界担当主力的大模型研究者，都是“智源系”出身。

可以说，智源研究院是最早系统布局大模型研究的国内科研机构之一，是中国大模型研究的启蒙先行者。

大会现场，几位国内AI大咖也对此有颇多感慨。

杨植麟提到，智源研究院至少是在亚洲地区最早投入、而且真的投入去做大模型的机构。

这是非常难得、非常领先的一个想法。