您的位置:首页 > 互联网

多模态大模型,阿里通义千问能和GPT-4V掰手腕了

发布时间:2024-01-26 15:28:03  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:泽南、蛋酱,授权转载发布。

通义千问的图像推理能力,最近有了大幅提升。

2024年,大模型领域要卷什么?

三星galaxy j3zero几英寸

如果没有思路的话,不妨看看各家大厂都在押注什么方向。

最近一段时间,先是 OpenAI 推出 GPT-4V,让大模型拥有了前所未有的图像语义理解能力。

谷歌随后跟上,发布的 Gemini 成为了业界第一个原生的多模态大模型,它可以泛化并无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。

很明显,新的方向就是多模态。继 GPT-4在语言方向的里程碑式突破之后,业界普遍认为视觉是下一个爆发的赛道。毕竟人类的五感之中有80% 是视觉信息,未来的大模型也应该充分利用更多种类的感官,以此探索实现 AGI 的路径。

不只有 GPT-4V、Gemini,在这个充满潜力的方向上,国内的技术力量同样值得关注:最近的一个重要发布就来自阿里,他们新升级的通义千问视觉语言大模型 Qwen-VL-Max 在上周正式发布,在多个测评基准上取得了好成绩,并实现了强大的图像理解的能力。

我们还记得 Gemini 发布之后,谷歌马上被曝出给 Demo 加速。这让人们对新技术产生了一些质疑,并开始好奇:在当下的各路多模态大模型中,到底哪家比较强?

Demo 不作数,实际一测便知。有人拿着自己的名片给 GPT-4V 和 Qwen-VL-Plus 看,高下立见了:值得注意的是,去年底升级的 Plus 版还不是 Qwen-VL 的最强版本,最近发布的 Max 才是。

图源:https://x.com/altryne/status/1742597044781395982?s=20

在 Qwen-VL-Plus 发布后,国内也有人拿 Gemini 演示视频里的问题对它进行了测试,发现所有问题 Qwen-VL-Plus 完全都能回答上来。

一系列测评看下来,我们确实可以说,Qwen-VL 的整体能力已经达到了媲美 GPT-4V 和 Gemini 的水平,在多模态大模型领域实现了业内领先。

Qwen-VL 如何追平 GPT-4V、Gemini?

事实上,通义千问的视觉理解大模型已经经历了几轮迭代。

早在去年8月,阿里就放出了 Qwen-VL 模型的第一个版本,并很快对通义千问进行了升级。Qwen-VL 支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了看世界的能力。

图片来源:https://twitter.com/Gorden_Sun/status/1696021151753855331

经历了几个月的改进,Qwen-VL 的整体能力又有了一个跃升,陆续推出 Plus 和 Max 两大升级版本,限时免费使用。用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型 API。

相比于开源版本的 Qwen-VL,这两个模型在多项图文多模态标准测试中获得了堪比 Gemini Ultra 和 GPT-4V 的水准,并大幅超越此前开源模型的最佳水平。

在多模态大模型性能整体榜单 OpenCompass 中,Qwen-VL-Plus 紧随 Gemini Pro 和 GPT-4V,占据了前三名的位置。

亚马逊近十年股价

图片来源:https://opencompass.org.cn/leaderboard-multimodal

Qwen-VL Plus 和 Max 支持百万像素以上的高清图,甚至各种极端长宽比的图片。

它们不仅有高水平的基准评测性能,在真实场景中展现出来的解决问题的能力也有显著提高,不仅可以轻松进行对话,识别名人、地标,生成文本内容,视觉推理能力也有明显改善。

开发者一手实测

Qwen-VL 发布以来,从开源社区到社交网络上,我们已经看到了一系列花活。

接下来,我们从普通用户的角度,再来考验一下升级版的 Qwen-VL。

给它一张《繁花》里面90年代初的上海滩照片:

通义千问识别出了这里是上海外滩,还能介绍一下黄浦江的景色,以及上海海关大楼等特定建筑物。

剧中提到的炒饭内含多少卡路里?

看起来大模型可以理解并联系一些知识。

除了基础的描述和识别能力外,Qwen-VL 模型还具备视觉定位能力和针对画面指定区域进行问答的能力。比如,根据指示进行目标检测。

如果你在截图上圈住一部分,它可以对其中的内容进行解释:

新升级的 Qwen-VL 模型最显著的进步之一是基于视觉完成复杂推理的能力,比如理解流程图这种复杂的表示形式:

与此同时,升级后的 Qwen-VL 处理图像中文本的能力也有了显著提高,不管是识别中文还是英文文本。Qwen-VL-Plus/Max 可以有效地从表格和文档中提取信息,并将这些信息重新格式化,以满足自定义输出要求。

四个多月就有如此进步,这就让人们开始感叹,阿里通义千问大模型更新够快,能力够强。

阿里多模态大模型,正在爆炸式发展

能够达到如今的水准,Qwen-VL 的技术实力不是一朝一夕炼成的。

在多模态大模型方向上,阿里很早就开始布局。从2021年 M6系列的预训练 - 微调模式,到2022年 OFA (One-For-All) 系列的统一模态表示和任务的模式,再到 OFASys 的系统化 AI 学习的尝试,通义千问团队的目标是做出和人一样能听、能看、能理解 & 沟通的通用 AI 模型(系统)。

2022年,阿里开源了 OFA。OFA 能通过自然语言来描述一个图文多模态任务,比如输入描述一下这张图片,模型就会尝试去产生一个合适的图像描述,打破了大家对通用多模态任务模型效果不如专用多模态模型的传统观念。这篇被 ICML2022接收的论文思路启发了后续的许多研究,被谷歌、微软、Meta 等众多国际大厂所引用,是近年来多模态方向的高引论文之一。

2023年以来,通义千问团队延续了 OFA 的研究路线,利用通义千问语言模型的能力,弥补了过去多模态模型在新任务泛化能力上的缺陷,相关成果就是2023年下半年我们看到的开源图文多模态模型 Qwen-VL 和音频多模态模型 Qwen-Audio。

与此同时,阿里云通义实验室的一系列视觉生成类成果,也彻底火出了圈,社交网络上时不时可以看到利用通义 AI 技术生成的动图。

比如只需一张图片即可生成跳舞视频的Animate Anyone,在国内外都引发了大量关注:

再比如实现真人百变换装的Outfit Anyone。这项技术不仅能够精确地处理服装的变形效果,并且能调整以适应不同的姿势和体形,实现更加逼真的试穿体验。无论是动画形象还是真人,都可以一键换装,让QQ 秀真正升级成了真人版。

此外,通义实验室的文生视频模型I2VGen-XL也是实实在在地火了一把,生成的视频兼顾高清、高分辨率、平滑、美观,毫不逊于 Gen2、Pika 效果。

I2VGen-XL 生成视频结果。

众所周知,通用人工智能的求索之路相当漫长,而大模型的技术突破,已经为我们指出了一个光明的方向。过去一年多,人们见证了一场激烈的 AI 技术角逐,赛道上不乏来自中国的选手。

以往,大模型领域的厂商大多以 OpenAI 为标杆,需要承认的是,OpenAI 的最新一代对话大模型 GPT-4仍然在语言领域保持着领先优势。

但在接下来的2024年,在下一个最具爆发潜力的技术方向 —— 多模态大模型上,中国的技术与产品或可与 OpenAI、谷歌这样的选手掰一掰手腕。像 Qwen-VL 这样的国产大模型,能否实现从追平到进一步超越?会不会再诞生一批爆款应用?这些都是接下来一年值得期待的事情。

长远来看,在多模态大模型进一步实用化之后,我们以后可以更加理直气壮,让 AI 自动识别图像和音频中的内容,进行总结、摘要和分析,新技术势必会大幅度提升我们的工作效率;我们在 AR、VR 世界中与环境的交互也会更加便捷,可穿戴设备的体验将会更具真实感,新应用可以大幅改进娱乐和日常体验。

更加直观的是,多模态大模型能够根据每个人的喜好生成定制化内容和产品,对于阿里来说,这件事很重要。

或许,随着多模态大模型技术的突破,我们将很快看到电商领域发生一场革命。


返回网站首页

本文评论
开源三年260家企业加入openGaus社区 即将迎来生态拐点「opengauss源码」
5月26日消息,openGauss Developer Day 2023(openGauss开发者大会2023)在北京举办。会上,openGauss社区理事会理事长江大勇透露,已有将近260家企业加入社区,近5000名开发者参与社区...
日期:05-27
电影消失的凶手谁是凶手「端午档黑马!电影《消失的她》总票房破4亿」
6月24日消息,据猫眼专业版数据,电影《消失的她》上映3天,总票房破4亿。redmi10x 5g电池容量小米11影像系统索尼ps5支持什么处理器朱一龙、倪妮、文咏珊主演的悬疑电影《消失的...
日期:06-24
俄罗斯网络公司增长潜力大 已成投资者新宠儿(俄罗斯互联网巨头)
(林靖东)北京时间6月18日消息,据国外媒体报道,凭借着投资低风险、用户和收入增长潜力大等优势,俄罗斯网络公司已经成为投资者的新宠儿。在过去的一年里,涨幅最大的两只俄罗斯股票...
日期:07-30
对话OPPO刘作虎:做好产品应对华为回归,AIGC是从业以来最让人兴奋的技术
出品 | 科技作者 | 张雅婷10月19日,OPPO举行发布会推出全新的折叠旗舰Find N3系列,在影像能力、软件交互等方面实现了较大的突破,售价9999元起。与前两代折叠屏手机相比,Fnid N3...
日期:10-22
和同事比着看谁睡更少 「盖茨自曝曾认为睡眠是懒惰的表现」
8月8日消息,微软联合创始人比尔·盖茨(Bill Gates)最近在播客访谈节目中承认,在微软发展的黄金时期,自己很少睡觉,因为他认为这“没必要”,而且是懒惰的表现。赶集网ceo杨浩涌盖茨...
日期:09-18
微信监控功能可以看聊天吗「用微信看自家监控不安全?深信服专家提醒小心被盗」
近年来,智能科技正在不断深入家庭领域,成为家庭生活中不可或缺的组成部分。尤其是对家中有老人孩子的家庭来说,家庭监控等智能科技设备,能帮助其及时了解家庭情况,快速解决家庭问...
日期:11-01
魅族的第十九个春天,「魅族 19 周年春意绘」相框公布_魅族19概念
  魅族科技是中国大陆一家智能手机研制与软件开发企业,由黄章等人于 2003 年 3 月 14 日成立于广东省珠海市。   一转眼魅族已经迎来了它的第十九个春天!官方现送出了一...
日期:07-17
15出货量8000万 15 Plus卖疯了 曝iPhone_苹果15手机什么时候出来
来源:中关村在线华云数据融资据知情人士透露,郭明錤认为iPhone 15的预期出货量仍保持在8000万部,而去年下半年的iPhone 14出货量为7600万部。 对于供应链的最大瓶颈——长焦相...
日期:09-24
SSD价格要崩盘了!闪存库存堆积如山 预期大跌35%_ssd价格失控
SSD的价格很可能要失守了。来自调研机构TrendForce(集邦咨询)的最新调查指出,进入第三季度下旬,结果旺季不旺,沉重的库存压力下,NAND Flash市场交易十分消极,合约价预估跌幅从原先...
日期:09-15
亚马逊海外购环球年货大集火热开启 海外超值品质好货共贺新春佳节
亚马逊海外购2021牛年首促 推出近100场海外同步折扣 逾25场低至5折中国定制优惠 点燃新春扫货热潮 强势集结四大海外站点超过3000万贺岁好礼   2021年1月18日,北京——农...
日期:07-16
汽车辅助驾驶系统的现状「辅助驾驶功能新车市场渗透率超三成 是否“鸡肋”引热议」
  中新网9月27日电(中新财经 葛成)辅助驾驶“白送可以,付费不行”,这一观点最近引发热议。业内对辅助驾驶功能是不是“鸡肋”争论不休,用户对于辅助驾驶的安全性也有担忧,但不容...
日期:09-27
让在线面试更多面:猎聘“多面”视频面试软件(猎聘网视频面试)
  面试是所有企业招聘中必不可少的一个环节。传统面试往往会耗费应聘者和招聘者许多不必要的开销和诸多宝贵时间,而猎聘的在线视频招聘软件——多面,可以轻松解决日常的招...
日期:09-01
伍佰演唱会轮不到自己开口上热搜  网友:粉丝买票唱给他听_伍佰演唱会歌迷
伍佰是华语乐坛传奇人物,他的音乐风格独特深受歌迷喜欢。伍佰的演唱会氛围热烈,每次上台很快就能引发粉丝全场大合唱,唱到粉丝唱完全场,场面很震撼。苹果15pro多少钱三星galaxy...
日期:04-25
CNCERT莅临网秦 共同关注移动安全产业发展
  近年来,伴随智能手机数量的高速增长,移动安全也引发了广大用户密切的关注。2011年的达沃斯世界经济论坛、以及正在西班牙巴塞罗那举行的世界移动通讯展上,移动安全更成为...
日期:07-26
华为十大新品价格汇总:MateBook X Pro笔记本顶配1.4万元
5月18日,华为举办夏季全场景新品发布会,一口气推出十款新品,尤其是笔记本全线更新。这次,我们看到了微绒金属机身、全球首发HDR Vivid的旗舰本MateBook X Pro,i9处理器、32GB大内...
日期:05-19
实时渲染3D技术BakedAvatar 可通过简短视频复制出人物3D头部
1月9日 消息:BakedAvatar是一项实时创建和渲染逼真的动态3D头像的技术。它可以通过简短的视频复制出人物的3D头部模型,并精确捕捉面部特征,模拟表情和头部运动。另外,它还能在...
日期:01-09
贾跃亭,彻底凉凉!_贾跃亭现
不出意外,贾跃亭这次应该是真的扛不住了。三星s21+最低价作者 | 杨瑞来源 | 财经三分钟(ID:qgq1818)不出意外,贾跃亭这次应该是真的扛不住了。近日,贾跃亭造车的公司主体法拉第未...
日期:01-16
蕉下在推的“轻量化户外”,资本会买账吗?
声明:本文来自于微信公众号 鞭牛士(ID:bianews8),作者:林小白,授权转载发布。随着天气温度逐渐上升,以防晒伞出名的蕉下已按耐不住内心的躁动,开始频繁活跃在大众视线里。只不过在...
日期:04-25
趣AI | 10款AI图片画质增强、老照片修复网站软件推荐 轻松提高图片分辨率
12月5日 消息:AI图像工具提供了一种增强图像和更改图像大小的好方法。我们仍然生活在一个充满数码照片的世界,研究表明人类每年拍摄超过一万亿张照片。数码照片俨然成为大家...
日期:12-06
学习平台“刷分”工具隐藏勒索病毒,360安全大脑全力支持解密恢复
  在疫情胶着的特殊时期,全民上下一盘棋,坚持自我隔离解除疫情;而在不能随意外出的日子里,也恰恰是大家学习锻炼、提升自我、补强固弱的大好时机。   然而,正当大家在学习...
日期:02-16