您的位置:首页 > 互联网

全球最强开源版Gemini诞生!全能多模态模型Emu2登热榜,多项任务刷新SOTA

发布时间:2023-12-28 02:02:00  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】最强的全能多模态模型来了!就在近日,智源研究院重磅发布了开源界的Gemini——Emu2,一口气刷新多项SOTA。

过去的18个月里,我们见证了AI领域许多重要的时刻。

Llama、Alpaca等众多开源模型竞相发布,不仅与闭源模型的性能相媲美,同时为每个人提供了投身AI的机会:

-2022年8月,Stable Diffusion问世,让DALL·E的神秘光环不再遥不可及,每个人都能够召唤出自己的数字达芬奇;

-2023年2月,Meta的Llama及其后续的语言模型大军,让ChatGPT的独角戏成为群星争辉;

-2023年12月6日,Google DeepMind揭开多模态巨星Gemini的面纱。

仅仅两周后,智源研究院便发布了最新一代生成式多模态开源模型——Emu2。

很快,这一开源多模态领域的工作便引起了国际社区的广泛关注,并登上了HN热榜第三。

Emu2在HackerNews榜单上引发关注

HuggingFace大V AK转发

据悉,这一模型即将推出更轻量的版本,让技术玩家也在本地运行。

Emu2,通过大规模自回归生成式多模态预训练,显著推动了多模态上下文学习能力的突破。

Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。

Emu2模型和Flamingo、GPT-4V、Gemini等模型能力对比情况一览

开源版Gemini来袭

相较2023年7月发布的第一代多模态to多模态Emu模型,Emu2使用了更简单的建模框架,训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。

与此同时,依然采用大量图、文、视频的序列,建立基于统一自回归建模的多模态预训练框架,将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。

值得一提的是,Emu2是目前最大的开源生成式多模态模型,基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型:

- Emu2-Chat可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。

- Emu2-Gen可以接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。

现在,Emu2的模型、代码均已开源,并提供Demo试用。

项目:https://baaivision.github.io/emu2/

模型:https://huggingface.co/BAAI/Emu2

代码:https://github.com/baaivision/Emu/tree/main/Emu2

Demo:https://huggingface.co/spaces/BAAI/Emu2

论文:https://arxiv.org/abs/2312.13286

多项性能刷新SOTA

通过对多模态理解和生成能力的定量评测,Emu2在包括少样本理解、视觉问答、主体驱动图像生成在内的多个任务上取得最优性能。

在少样本评测上,Emu2在各个场景下显著超过Flamingo-80B,例如在16-shot TextVQA上较Flamingo-80B 超过12.7个点。

经过指令微调的Emu2可以对图像和视频输入进行自由问答,以统一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余个图像和视频问答评测集上取得最优性能。

在零样本的DreamBench主体驱动图像生成测试上,较此前方法取得显著提升,例如比Salesforce的BLIP-Diffusion的CLIP-I分数高7.1%, 比微软的Kosmos-G的DINO分数高7.2%。

多模态上下文学习

生成式预训练完成后,Emu2具备全面且强大的多模态上下文学习能力。基于几个例子,模型可以照猫画虎的完成对应理解和生成任务。

例如在上下文中描述图像、在上下文中理解视觉提示(覆盖图像上的红圈)、在上下文中生成类似风格的图像、在上下文中生成对应主体的图像等。

强大的多模态理解

经过对话数据指令微调的Emu2-Chat,可以精准理解图文指令、更好的完成多模态理解任务。

初学视频剪辑软件哪个好

例如推理图像中的要素、读指示牌提供引导、按要求提取和估计指定属性、回答简单的专业学科问题等。

基于任意prompt序列的图像生成

经过高质量图像微调的Emu2-Gen,可以接受图像、文本、位置交错的序列作为输入,生成对应的高质量图像,这样的灵活性带来高可控性。

例如生成指定位置、指定主体的熊和向日葵:

生成指定位置、指定主体、指定风格的宠物狗和小鸸鹋的合影图像:

更多的根据图文序列生成的例子:

基于任意prompt序列的视频生成

进一步的,Emu2支持基于任意prompt序列的视频生成。

基于文本、图文交错、图文位置交错的序列,可以生成对应的高质量视频。

统一的生成式预训练

Emu2的训练方法是在多模态序列中进行生成式预训练。

使用统一的自回归建模方式,根据当前已生成的 token 预测下一个视觉或文本token。

相比Emu1,Emu2使用了更简单的建模框架、训练了更好的从特征重建原图的解码器、并把模型规模化到37B参数。

参考资料:

https://baaivision.github.io/emu2/


返回网站首页

本文评论
经济日报:支付十年 数字化浪潮中的支付变迁「支付产业数字化转型」
  2013年,上海的张先生来到浦发银行的ATM机,他要给远在北京上学的小张转生活费。插卡、输入密码、转账、24小时后,小张的招商银行借记卡将收到这笔转账款项。  2017年,小张...
日期:09-27
首发“捅破天”双向卫星通信!华为Mate X3/P60今天发布
今天下午14:30,华为将在上海召开新品发布会,这次最大的主角就是两大旗舰华为Mate X3、华为P60。其中P60系列共有三款机型,分别是华为P60、华为P60 Pro、华为P60 Art(艺术家设计)...
日期:03-23
限电 富士康_成都富士康限电停产一周
财联社8月15日电,财联社记者从负责富士康招聘的中介处了解到,成都富士康从15日至20日限电,仅保留20%保安负载,全厂生产停止。生产线员工对财联社记者表示,已接到休息通知。(财联社...
日期:08-21
Stability AI 推出稳定视频扩散 API 插件引起争议
12月22日 消息:Stability AI,以其稳定扩散文本到图像生成器而著称的公司,近日宣布推出新的基础图像到视频模型——稳定视频扩散(Stable Video Diffusion,SVD),并已在其开发者平台...
日期:12-22
毕业生不愿下车间 董明珠:大学生打螺钉没什么不可以 不要觉得应该坐办公室
3月10日,格力电器董事长董明珠在接受媒体采访时表示,大学生毕业后去流水线打螺丝钉没什么不可以,聪明的人应该去基层历练。谈及大学生就业,董明珠表示,现在大学生不愿意下车间,当...
日期:03-11
苹果iPhone 15 Pro Max拆解:升级骁龙X70调制解调器、确认主摄未变
近日,苹果高端机型iPhone 15 Pro Max的维修团队iFixit进行了拆解。他们表示,这款手机的整体内部设计与iPhone 14 Pro Max相似,但采用了全新设计的中框,使后玻璃面板更加容易拆卸...
日期:09-26
全球大型网站正在阻止 OpenAI 等人工智能爬虫访问其内容「全球的网站」
9月2日消息:根据人工智能内容检测器 Originality.AI 的最新数据,全球前 1000 个网站中有近 20% 阻止爬虫机器人收集网络数据用于 AI 服务。在缺乏明确法律或监管规定管理 AI...
日期:09-03
国产特斯拉全系降价 Model 3起售价22.99万元_特斯拉国产model 3落地价格
凤凰网科技讯 1月6日消息,据特斯拉中国官网,特斯拉国产车型大幅降价,Model 3起售价22.99万元,Model Y起售价25.99万元。此外,特斯拉还宣布全新Model S 双电机全轮驱动版起售价78....
日期:01-06
Chrome 与 Firefox 将支持 AVIF 图像格式
  7月10日消息 据至顶网报道,新的 AVIF 格式图片即将出现在 Web 浏览器中。 ▲ 图源至顶网   报道称,目前 Chrome 浏览器和火狐浏览器对 AVIF 的支持工作已接近完成。...
日期:07-14
申通快递双11首单9分钟进村_申通快递线上下单
11月1日消息,今年“双11”预售商品的尾款支付时间提前到了10月31日晚20时,“双11”快递旺季也同步开启。当晚在付完尾款9分钟后,浙江省嘉兴市秀洲区王江泾镇宇四浜村村民金女士...
日期:11-02
移动明年推TD版WP手机 透露LTE终端策略(支持中国移动td-lte网络是什么意思)
  10月17日消息,中国移动终端部总经理助理唐剑峰日前透露,截止到2011年,在中国移动产品库入库的产品达到了600款,手机占了70%。截止到9月底,今年入库的 TD 手机已经达到了142...
日期:07-24
Twitter发布疫情时期的品牌指南建议,帮助品牌稳健度过特殊时期_疫情期间品牌
  (3月12日,新加坡)Twitter今日发布应对新冠肺炎疫情(COVID-19)的品牌传播指南,为全球品牌在特殊时期如何更有效的开展与受众用户沟通互动提供专业建议。自新冠肺炎疫情(CO...
日期:04-03
印度一名 CEO 因选择人工智能机器人而不是人类员工而受到批评「印度的人工智能现状」
7月13日消息:印度一名首席执行官因表示其公司已经用人工智能(AI)聊天机器人取代了 90% 的支持人员而受到批评。Dukaan 的创始人 Suumit Shah 在 Twitter 上表示,聊天机器人大大...
日期:07-13
火热公测!华为云 DAS 支持一键诊断劣质 SQL 语句
  在对数据库的管理过程中,相信很多用户都曾遇到业务系统响应慢、数据库SQL 效率差的问题。日前,华为云数据管理服务 DAS 新推出 SQL 诊断功能,一键诊断 MySQL 数据库的慢 S...
日期:04-11
窝窝团:布局金九银十  力推高质服务体验
  金九银十历来为商家必争之地,2011年战火已蔓延至团购市场。国内团购行业领军企业窝窝团正式宣布,窝窝团将升级“窝窝天使”服务,强化“雷达系统”,力推高质量服务体验,备战...
日期:07-22
为什么微信头像褪色「微信回应头像褪色:正在优化该功能」
2月13日 消息:今天,有网友反映,微信头像使用一段时间后会变暗淡,清晰度和色彩也变得不够明亮。有人猜测这可能是由于压缩画质导致的。有人开玩笑地说头像“电子包浆”了。微信...
日期:02-14
极氪首款自研电池定名“金砖电池” :12月14日正式发布_极氪001是刀片电池吗
快科技12月10日消息,我们从极氪汽车官方获悉,极氪能源日2023 暨电池新品发布会将于12月14日举行。戴森最新空气净化器5g协议标准华为与高通此外,极氪首款自研电池也正式定名为...
日期:12-10
支付宝新专利公布:可实现手机刷掌支付_支付宝手机刷脸支付怎么用
凤凰网科技讯 6月27日消息,据天眼查App显示,支付宝(杭州)信息技术有限公司申请的“基于手掌的支付处理方法及装置”专利公布。用户只需将手掌置于设备的掌纹识别区,即可实现手机...
日期:06-27
淘特公布双11玩法 主推搜索“比价”可享五折_淘特购物,超值低价,一起试试吧
10月11日 消息:双十一就快到了,各大电商平台纷纷公布了今年的玩法。主打性价比的淘特,今年的玩法也还是围绕性价比,主推搜索比价功能。10月22日、11月11日,淘特搜索“比价王者”...
日期:10-26
618杀疯了!Redmi K60系列全渠道销量破100万台_红米k605g
一年一度的618年中大促落下帷幕,各大手机厂商也都相继公布了在618期间的销售战报。法拉第未来ff91最新消息据数据显示,小米的战报最为亮眼,全渠道累计支付金额超过194亿元,较去...
日期:06-19