您的位置:首页 > 互联网

阿里重磅开源Qwen2-VL:能理解超20分钟视频,媲美GPT-4o!

发布时间:2024-08-30 12:27:56  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权转载发布。

阿里巴巴开源了最新视觉多模态模型Qwen2-VL,根据测试数据显示,其72B模型在大部分指标超过了OpenAI的GPT-4o,Anthropic的Claude3.5-Sonnet等著名闭源模型,成为目前最强多模态模型之一。

Qwen2-VL支持中文、英文、日文、韩文等众多语言,可以在 Apache2.0协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B的API,帮助开发者增强或开发多模态功能的生成式AI应用。

开源地址:https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d

Github:https://github.com/QwenLM/Qwen2-VL

在线demo:https://huggingface.co/spaces/Qwen/Qwen2-VL

API:https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api

地览电线多少钱一米

Qwen2-VL特色功能与性能测试

Qwen2-VL是基于Qwen2开发而成,相比第一代Qwen-VL有以下特色功能。

马斯克警惕人工智能

可理解20分钟以上的长视频:Qwen2-VL 可理解长视频,并将其用于基于视频的问答、对话和内容创作等应用中。

例如,对于一部长达两个小时的纪录片,用户询问其中某个特定历史事件的具体时间和背景,Qwen2-VL 可以快速检索视频内容,从复杂的影像和解说中提取出关键信息,为用户提供详细准确的回答。

Qwen2-VL还可以根据长视频的内容进行故事续写、影评撰写或者创意改编。例如,一个30分钟的科普长视频,Qwen2-VL 可以提取其中的核心知识,创作出一篇通俗易懂的科普文章,或者以视频中的某个情节为灵感构思出一部全新的小说。

可操作手机和机器人的视觉智能体:借助复杂推理和决策的能力,Qwen2-VL 可集成到手机、机器人等设备,根据视觉环境和文字指令进行自动操作。

能读懂不同分辨率和不同长宽比的图片:Qwen2-VL 在 MathVista、DocVQA、RealWorldQA、MTVQA等视觉理解基准测试中取得了全球领先的表现。

性能评估方面,阿里从大学题目、数学、文档表格多语言文字图像的理解、通用场景下的问答、视频理解、Agent进行了综合测试。

结果显示,72B的大部分性能超过了GPT-4o,仅在对综合的大学题目上和 GPT-4o 还有一些差距。

在7B模型上,其性能与GPT-4mini的水平一样,尤其是像 DocVQA 之类的文档理解能力和 MTVQA 考察的图片中多语言文字理解能力都处于 SOTA 水平。

Qwen2-VL架构简单介绍

模型架构方面, Qwen2-VL 在架构上的一大改进是实现了对原生动态分辨率的全面支持。与上一代模型相比,Qwen2-VL 能够处理任意分辨率的图像输入,不同大小图片被转换为动态数量的tokens,最小只占4个 tokens。

这种设计不仅确保了模型输入与图像原始信息之间的高度一致性,更是模拟了人类视觉感知的自然方式,赋予模型处理任意尺寸图像的强大能力,使其在图像处理领域展现出更加灵活和高效的表现。

Qwen2-VL在架构上的另一重要创新则是多模态旋转位置嵌入(M-ROPE)。传统的旋转位置嵌入只能捕捉一维序列的位置信息,而 M-ROPE 通过将原始旋转嵌入分解为代表时间、高度和宽度的三个部分。

使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息。这一创新赋予了语言模型强大的多模态处理和推理能力,能够更好地理解和建模复杂的多模态数据能力。

案例展示

目前,阿里已经展示了Qwen2-VL的多个实际应用案例,例如,对一大段视频进行详细解读。

用户:请详细描述一下视频。

Qwen2-VL:视频开始时,一名男子对着镜头说话,后面是一群人坐在控制室里。然后镜头切换到两个漂浮在空间站内的男子,可以看到他们对着镜头说话。这些人似乎是宇航员,他们穿着太空服。

空间站里充满了各种设备和机械,镜头四处移动以显示空间站的不同区域。这些人继续对着镜头说话,他们似乎在讨论他们的使命和正在执行的各种任务。总的来说,该视频让人们对太空探索的世界和宇航员的日常生活有了一个有趣的了解。

用户还可以基于视频继续提问,两位宇航员穿的衣服是什么颜色的?Qwen2-VL回答:两名宇航员穿着蓝色和黑色的衣服。

你也可以向Qwen2-VL发送一张杭州萧山到北京的飞机票,然后基于上面的内容进行提问:“这趟航班什么时候到达?到达时目的地的天气如何?”

Qwen2-VL具备了GPT-4o的实时问答功能,让其对一些书、植物、手势等进行解读。


返回网站首页

本文评论
从Among Us到Clubhouse、再到AI,荔枝出海始终在热点一线
声明:本文来自于微信公众号白鲸出海(ID:baijingapp),作者:辛童,授权转载发布。笔者曾在多篇文章中拆解荔枝的出海产品,并尝试预测出海能否成为荔枝的第二增长曲线,可事实证明荔枝的出...
日期:04-04
长颈鹿 睡姿「打工人福音?日本推出长颈鹿式站立睡眠舱:半小时收费41元」
8月2日消息,为了考虑打工人的午睡需求,日本一家公司别出心裁推出了长颈鹿式站立睡眠舱。据介绍,这款睡眠舱从四个部位支撑头部、臀部、小腿和脚底,能让人保持放松状态,像长颈鹿一...
日期:08-02
日本半导体占全球比重「日本统计了56大高科技工业产品份额:我国拿到15个全球」
日前,日本公布了2021年主要商品和服务份额调查”报告,总共的56个品类多与高科技工业产品相关。结果显示,美国公司在18个品类拿到第一名,中国公司在15个品类中拿到第一,日本在7各...
日期:12-03
华为mate60官方首曝「华为 Mate 60 / 60 Pro 手机备件价格公布,屏幕 1199 元起」
IT之家 9 月 1 日消息,华为 Mate 60 / 60 Pro 两款新机于本周正式上线,标准版售价 5999 元,Pro 版售价 6999 元,目前两款机型均只有 12GB+512GB 一个版本。现在,这两款新机的维修...
日期:09-02
数实融合 创新驱动 | 2023北京互联网大会点亮数字北京建设_北京市互联网+大赛获奖名单
共襄科技盛举,共享数字北京。2023年9月18日,数字北京建设暨2023(第二十届)北京互联网大会在京举办,本次大会由北京市通信管理局指导、北京市通信行业协会主办、信通传媒·通信世...
日期:09-19
欧洲运营商抢先5G-A,国内需跟上步伐_欧洲5g商用了吗
通信世界网消息(CWW)芬兰运营商DNA宣布推出欧洲首个5.5G网络服务的消息,这两天成为业界讨论的热点话题,这也是继前两天中东多家运营商宣布将开启5G-A建设的消息后,业界迎来的5G-A...
日期:12-20
35岁清华毕业生再考清华失败:考得很差 成绩超600分_考上清华也是失败
6月26日消息,据国内媒体报道称,35岁再考清华当事人李龙表示:自己考的很差,没有完成700分的目标(但成绩也超600分)。绿色版PS不能换字体李龙并未透露具体分数,只说清华没戏了。2008...
日期:06-26
Epic跨年16连送开启!第一弹《咒语浪人》:立省60元_咒语浪人攻略
快科技12月21日消息,今天,Epic官方宣布跨年福利16连送正式开启,神秘游戏现已公布,国区为回合制战术游戏《咒语浪人(Spelldrifter)》。《咒语浪人》目前在Epic官方商城售价为60元,目...
日期:12-21
预计今年下半年AI服务器市场增长可能达到100%以上-鸿海董事长刘扬伟
鸿海董事长刘扬伟周三在年度股东大会上说,鸿海的最新 AI 服务器搭载了英伟达的芯片,2022 年鸿海服务器营收达到 1.1 万亿元新台币(约 358 亿美元),占据全球四成市场。刘扬伟表示,...
日期:09-25
excel输入前面字母即可显示之前输入过的信息「Redmi K60配置曝光:2000价位 最快明年2月发布」
昨晚,有数码博主曝光了关于Redmi K60系列手机的一些配置信息:Redmi K60系列将至少推出两款机型——Redmi K60、Redmi K60 Pro,全系均将搭载骁龙8+芯片,且有两种充电规格——标准...
日期:10-14
5G五周年 | 5G如何重塑制造业的未来?_5g对制造业
5G如何重塑制造业的未来?6月6日  10:00锁定“通信世界全媒体”直播间洞察5G智能制造的赋能现状探讨困境应对策略展望5G智能制造的发展蓝图高朋满座...
日期:06-06
迪士尼考虑推出类似亚马逊Prime的会员计划「amazon prime会员服务有哪些」
  《华尔街日报》9月1日报道,知情人士透露,华特迪士尼公司正在考虑推出一项会员计划,该计划可能提供折扣或特殊优惠,以鼓励顾客增加在该公司流媒体服务、主题公园、度假区和商...
日期:09-01
魅族17横排摄像头好看吗「竖排后摄相机模组 造型简洁时尚 魅族20-Pro真机谍照曝光」
在2022年末,魅族召开魅友大会2022,首次对外表示用户翘首以盼的魅族20系列将在2023年春正式发售。虽然官方早已开启了正式的预热,但该机具体的发布时间却迟迟没有宣布,可以说是官...
日期:09-19
吉利汽车2021年一月销量「吉利汽车1月总销量21.35万辆,同比增长110%」
2月1日,吉利汽车在港交所公告表示,集团于2024年1月之总销量为213487部汽车,较去年同期增长约110%,为历史新高。其中,吉利品牌汽车销量17224辆,同比增长98%,银河系列销量19223辆;极氪...
日期:02-02
天水城市怎么样「小城天水,能抄淄博和哈尔滨的作业吗?」
声明:本文来自微信公众号“刺猬公社”(ID:ciweigongshe),作者:徐嘉,编辑:园长,授权转载发布。这是一场四两拨千斤的盛事:一碗麻辣烫,唤醒一座西北小城的文旅热。土豆、面筋、藕片,...
日期:03-18
安兔兔千元机排行「安兔兔10月手机性能排行出炉:骁龙8+屠榜 前10仅有一款天玑U」
11月第一天,安兔兔今日公布了10月安卓旗舰手机性能排行,骁龙8+堪称最大赢家。榜单显示,上榜的10款手机中,几乎清一色都搭载了高通骁龙8+旗舰处理器,而联发科天玑9000+仅上榜一款...
日期:11-12
嵌入式存储专家FORESEE,产品全面开花,稳定高效发展_嵌入式存储器架构
在数字化快速发展的今天,数据存储成为各行业不可或缺的一部分。作为国内存储行业品牌江波龙集团旗下的行业类存储品牌,FORESEE自2011年创立以来,始终坚持以技术为引擎,以客户为...
日期:07-17
专家双十一解析购物成瘾根源:都是商家刻意营造 中圈套了_双十一购物骗局
截止今天零点,今年的双十一电商节算是告一段落,各厂商也已经晒出了自己的成绩单。主流厂商动辄几十上百亿的成绩,都是我们普通消费者一笔笔订单积攒起来。那为什么这么多消费者...
日期:11-14
苹果SuperDrive似乎已停产-光盘时代落幕_苹果superdrive不吃光盘
8 月 6 日消息,苹果公司似乎已经正式停产了其经典配件 ——USB SuperDrive。这一消息虽然并不意外,但标志着一个时代的结束。据了解,SuperDrive 是苹果在 2008 年推出 MacBook...
日期:08-06
阿里云宣布“飞天智算平台”发布,可将AI训练效率提升11倍_阿里云计算系统飞天
  讯 8月30日下午消息,阿里云宣布推出全栈智能计算方案“飞天智算平台”,并启动两座超大规模智算中心,以公共云和专有云两种模式,面向科研、公共服务和企业机构提供智能计算服...
日期:08-31