您的位置:首页 > 互联网

阿里大模型又开源!能读图会识物,基于通义千问7B打造,可商用

发布时间:2023-08-26 23:06:52  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:鱼羊 ,授权转载发布。

阿里开源大模型,又上新了~

继通义千问-7B(Qwen-7B)之后,阿里云又推出了大规模视觉语言模型Qwen-VL,并且一上线就直接开源。

具体来说,Qwen-VL是基于通义千问-7B打造的多模态大模型,支持图像、文本、检测框等多种输入,并且在文本之外,也支持检测框的输出。

举个例子,我们输入一张阿尼亚的图片,通过问答的形式,Qwen-VL-Chat既能概括图片内容,也能定位到图片中的阿尼亚。

测试任务中,Qwen-VL展现出了“六边形战士”的实力,在四大类多模态任务的标准英文测评中(Zero-shot Caption/VQA/DocVQA/Grounding)上,都取得了SOTA。

开源消息一出,就引发了不少关注。

具体表现如何,咱们一起来看看~

首个支持中文开放域定位的通用模型

先来整体看一下Qwen-VL系列模型的特点:

  • 多语言对话:支持多语言对话,端到端支持图片里中英双语的长文本识别;

  • 多图交错对话:支持多图输入和比较,指定图片问答,多图文学创作等;

  • 首个支持中文开放域定位的通用模型:通过中文开放域语言表达进行检测框标注,也就是能在画面中精准地找到目标物体;

  • 细粒度识别和理解:相比于目前其它开源LVLM(大规模视觉语言模型)使用的224分辨率,Qwen-VL是首个开源的448分辨率LVLM模型。更高分辨率可以提升细粒度的文字识别、文档问答和检测框标注。

按场景来说,Qwen-VL可以用于知识问答、图像问答、文档问答、细粒度视觉定位等场景。

比如,有一位看不懂中文的外国友人去医院看病,对着导览图一个头两个大,不知道怎么去往对应科室,就可以直接把图和问题丢给Qwen-VL,让它根据图片信息担当翻译。

再来测试一下多图输入和比较:

虽然没认出来阿尼亚,不过情绪判断确实挺准确的(手动狗头)。

视觉定位能力方面,即使图片非常复杂人物繁多,Qwen-VL也能精准地根据要求找出绿巨人和蜘蛛侠。

技术细节上,Qwen-VL是以Qwen-7B为基座语言模型,在模型架构上引入了视觉编码器ViT,并通过位置感知的视觉语言适配器连接二者,使得模型支持视觉信号输入。

具体的训练过程分为三步:

  • 预训练:只优化视觉编码器和视觉语言适配器,冻结语言模型。使用大规模图像-文本配对数据,输入图像分辨率为224x224。

  • 多任务预训练:引入更高分辨率(448x448)的多任务视觉语言数据,如VQA、文本VQA、指称理解等,进行多任务联合预训练。

  • 监督微调:冻结视觉编码器,优化语言模型和适配器。使用对话交互数据进行提示调优,得到最终的带交互能力的Qwen-VL-Chat模型。

研究人员在四大类多模态任务(Zero-shot Caption/VQA/DocVQA/Grounding)的标准英文测评中测试了Qwen-VL。

结果显示,Qwen-VL取得了同等尺寸开源LVLM的最好效果。

另外,研究人员构建了一套基于GPT-4打分机制的测试集TouchStone。

在这一对比测试中,Qwen-VL-Chat取得了SOTA。

如果你对Qwen-VL感兴趣,现在在魔搭社区和huggingface上都有demo可以直接试玩,链接文末奉上~

Qwen-VL支持研究人员和开发者进行二次开发,也允许商用,不过需要注意的是,商用的话需要先填写问卷申请。

项目链接:

https://modelscope.cn/models/qwen/Qwen-VL/summary

https://modelscope.cn/models/qwen/Qwen-VL-Chat/summary

魅族16th plus原价

https://huggingface.co/Qwen/Qwen-VL

https://huggingface.co/Qwen/Qwen-VL-Chat

https://github.com/QwenLM/Qwen-VL

论文地址:

iphone13产量不足

https://arxiv.org/abs/2308.12966

—完—


返回网站首页

本文评论
苹果13分期24期免息「iPhone 13只要4388了 分期免息」
今年双11的促销格外火爆,并且将延长到20日,现在iPhone 14和iPhone 13全系都有着不错的价格。首先是iPhone 13,现在立减800后到手只要4388元了,虽然是上一代旗舰但是仍然是A15芯...
日期:11-16
淘宝内环境再外扩:聚划算团购平台分拆独立
  徐洁云   继6月一拆为三后,淘宝网再度分拆出独立业务板块。   昨天,阿里巴巴(微博)集团宣布,淘宝网旗下的团购平台聚划算将以公司化的形式独立运营,成为阿里集团旗下又...
日期:07-24
骁龙8 Gen2架构及频率曝光:性能提升10%_骁龙8cx Gen2
9月28日晚消息,数码达人i冰宇宙给出消息,SM8550芯片也就是骁龙8 Gen2采用1+2+2+3架构,目前的CPU频率是2.84Hz、2.4GHz、2.4Ghz和1.8GHz。海信电视开售u8h戴尔笔记本最大的屏幕...
日期:10-02
三星手机galaxy s4「s4三星手机」
S4三星手机是一款由韩国电子巨头三星公司于2013年发布的智能手机。这款手机以高清屏幕、强大的性能和多项独特的功能为特点,成为当时市场上最受欢迎的手机之一。S4三星手机的...
日期:05-31
专家权威点评比亚迪CTB技术:刀片与车身完美结合 只能在比亚迪才能实现
近日,行业多位权威专家齐聚比亚迪全球总部,参与比亚迪CTB技术专家品鉴会。据介绍,比亚迪CTB电池车身一体化技术,将车身地板与电池上盖集成,电池三明治”结构进化为整车三明治”,让...
日期:03-09
工信部组织开展数字化赋能、科技成果赋智、质量标准品牌赋值中小企业全国行活动
通信世界网消息(CWW)工业和信息化部近日印发通知,组织开展数字化赋能、科技成果赋智、质量标准品牌赋值中小企业全国行活动。通知指出,各地工业和信息化主管部门组织互联网平台...
日期:06-28
“断网事件”致黑莓可信度遭到质疑(黑莓 安全性)
  以iPhone为代表的新一代触屏智能手机风靡全球后,黑莓(BlackBerry)这一老牌智能手机依然不肯认输。事实上,黑莓也确实依然拥有大量的追捧者,其最吸引人的地方就是安全稳定...
日期:07-24
与携程合作的租车公司「携程租车和腾讯出行服务正式达成合作」
9 月 28 日消息,近日,携程租车和腾讯出行服务正式达成合作,携程租车正式入驻腾讯出行服务,为腾讯出行服务的用户提供一站式在线预订国内租车服务。自 9 月 20 日起,用户通过“微...
日期:09-29
魅族18带充电器吗_魅族18系列不送充电器上热搜
  IT之家2月28日消息 昨日,魅族科技通过社交媒体宣布,魅族 18 系列取消随机附送充电器,称 “多一个不必要的充电器,地球环保便多一份压力。魅族 18 系列取消随机附送充电器,为...
日期:07-16
日媒:中国AI论文质和量都远超美国 这四家公司进前十_中国在ai领域的论文数量已经超过了美国
凤凰网科技讯 北京时间1月16日消息,据日媒报道,一项研究显示,中国是人工智能(AI)研究论文领域无可争议的领导者,在数量和质量上都远远超过了美国。根据该研究,从AI论文数量来看,中...
日期:01-16
如何在抖音做一档音乐旅行节目呢「如何在抖音做一档音乐旅行节目」
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:王诗怡,授权转载发布。尽管已经去过好几次丽江古城,但「跟着」张信哲逛那个叫忠义市场的菜场,看唐汉霄拿着柿子、茄子...
日期:02-08
红魔新品发布「红魔再次联名变形金刚:红魔8S Pro或将推出定制版本」
快科技7月4日消息,此前,红魔已经多次与《变形金刚》IP联名,并推出了包括手机、充电器在内的一系列定制产品。iphone语音控制和siri今天,红魔官方宣布,将再次与《变形金刚》联名合...
日期:07-04
OPPO Reno9 Pro+发布:骁龙8+配双芯人像摄影系统 售3999元起「OPPO Reno9」
凤凰网科技讯(作者/莫环顺)11月24日消息,OPPO于今日举行发布会,发布手机OPPO Reno9系列,Reno9 Pro+搭载第一代骁龙8+移动平台的同时,支持双芯人像摄影系统,售价3999元起。OPPO Reno...
日期:11-26
amd股价超过英特尔「AMD、Intel业绩暴雷 NVIDIA成了全村的希望:AI关键一战」
快科技5月3日消息,PC、数据中心市场的需求下滑已经让科技巨头面临巨大的业绩压力,Intel、AMD这几天都发布了财报,一个营收下滑36%,一个营收下滑9%,都是近年来罕见的情况。谁能在...
日期:05-03
有人用支付宝小荷包吗「支付宝小荷包升级:最多支持60人同时使用」
支付宝宣布,支付宝小荷包扩容”,现在起,集体经费模式”可支持60人同时使用,还能提前预存、灵活分摊、自动计算成员结余,事后多退少补,账单一目了然。netflix收视率荣耀X20真的很护...
日期:09-30
自嘲“老用户不如狗” 领克车主发起联合声明「领克车主贴吧」
3月25日消息,近日,一封领克车主联合声明在网络上流传,要求领克品牌履行承诺并解决问题,一些车主在传播是更是愤慨地表示真是老用户不如狗”。荣耀50pro的vlog据联合声明可知,领克...
日期:03-25
关于广角Meta AAU在5G无线网络建设中应用的研究_广角技术的日常用途
通信世界网消息(CWW)在5G网络建设过程中,不同场景对网络需求的差异性将直接影响5G网络的设备选型,设备选型应本着“技术先进、价格合理”的原则,从技术演进、设备功能、组网灵活...
日期:06-14
分享电视k歌教程,当贝酷狗音乐教你电视k歌方法(酷狗在电视上怎么k歌)
  2021年春节的脚步愈来愈近,全家人团圆的日子就要来了。春节期间,大家除了拜访亲朋好友,娱乐活动还是必不可少的。不过鉴于今年特殊时期,小智还是建议大家少出门群聚。...
日期:07-10
Redmi K70 系列爆料集合,长焦镜头引入 2000 元价位手机_红米k7参数
Redmi K70 系列有了消息,博主爆料称,K70 系列取消了塑料支架,标配新工艺喷砂塑料中框 玻璃机身,质感提升了一大截。杨振宁是最伟大的物理学家取消塑料支架之后,手机将会更简洁,正...
日期:06-16
马云从东京教书回来了!现身杭州围观阿里数学竞赛,与参赛选手、命题老师畅谈数学
据蓝鲸财经,6月17日下午,2023阿里巴巴全球数学竞赛决赛开赛,阿里巴巴创始人马云来到杭州现场观赛。今年来自全球19个国家的685位选手,从5万多名参赛者中脱颖而出,晋级时长8小时的...
日期:06-19