您的位置:首页 > 互联网

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

发布时间:2024-05-02 15:30:25  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:鱼羊,授权转载发布。

开源大模型,已经开启大卷特卷模式。

全球范围,太平洋两岸,双雄格局正在呼之欲出。

Llama3中杯大杯刚惊艳亮相,国内通义千问就直接开源千亿级参数模型Qwen1.5-110B,一把火上Hacker News榜首。

图片

不仅相较于自家720亿参数模型性能明显提升,在MMLU、C-Eval、HumanEval等多个基准测试中,Qwen1.5-110B都重返SOTA开源模型宝座,超越Llama370B,成最强开源大模型

图片

中关村蓝牙耳机对比

中文能力方面,对比仅喂了5%非英文数据的Llama370B,Qwen1.5-110B更是优势明显。

图片

于是乎,模型一上线,开源社区已经热烈响应起来。

这不,Qwen1.5-110B推出不到一天,帮助用户在本地环境运行创建大语言模型的Ollama平台,就已火速上线链接。

图片

值得关注的是,这已经是3个月内通义千问开源的第8款大模型

开源大模型都在卷些什么?

那么,问题来了,因Llama3和Qwen1.5接连开源而持续的这波开源大模型小热潮中,开源模型又在卷些什么?

如果说上一阶段由马斯克Grok和Mixtral所引领的话题热点是MoE,那网友们这一两周内聚焦的第一关键词,当属Scaling Laws——

尺度定律

OpenAI创始成员、前特斯拉AI总监Andrej Karpathy在总结Llama3时,就着重提到过其中尺度定律的体现:

Llama2在2T token数据上训练,而Llama3直接加码到了15T,远超Chinchilla推荐量。并且Meta提到,即便如此,模型似乎依然没有以标准方式“收敛”。

图片

也就是说,“力大砖飞”这事儿还远没有达到上限。

无独有偶,Qwen1.5-110B延续了这个话题的讨论。

官方博客提到,相比于Qwen1.5-72B,此次开源的千亿参数模型在预训练方法上并没有太大的改变,但包括编程、数学、语言理解、推理在内的各项能力提升明显。

我们认为性能提升主要来自于增加模型规模。

图片

更强大、更大规模的基础语言模型,也带来了更好的Chat模型。

图片

阿里的研究人员们指出,Qwen1.5-110B的评测成绩意味着,在模型大小扩展方面仍有很大的提升空间。

官方还浅浅剧透了Qwen2的研究方向:同时扩展训练数据和模型大小,双管齐下。

图片

多语言和长文本能力

尺度定律之外,由闭源模型掀起的长文本风潮,同样在开源模型身上被重点关注。

Llama3的8K上下文窗口,就遭到了不少吐槽:实在有点“古典”。

Qwen1.5-110B在这方面延续了同系列模型的32K上下文。在此前的测试中,长文本能力测试结果显示,即使是Qwen1.5-7B这样的“小模型”,也能表现出与GPT3.5-turbo-16k类似的性能。

图片

并且,开源的优势就是敢想你就来。

Qwen1.5官方博客中提到,虽然纸面给的是32K吧,但并不代表模型的上限就到这儿了:

您可以在config.json中,尝试将max_position_embedding和sliding_window修改为更大的值,观察模型在更长上下文理解场景下,是否可以达到您满意的效果。

另一个由通义千问而被cue到的大模型能力评判指标,就是多语言能力。

以Qwen1.5-110B为例,该模型支持中文、英文、法语、西班牙语、德语、俄语、韩语、日语、越南语、阿拉伯语等多种语言。

阿里高级算法专家林俊旸分享过通义千问团队内部收到的反馈:实际上,多语言能力在全球开源社区中广受欢迎,正在推动大模型在全球各地的落地应用。

而Qwen1.5在12个比较大的语言中,表现都不逊于GPT-3.5。

图片

对于中文世界而言,这也是国产开源大模型的优势所在。

毕竟Llama3强则强矣,训练数据方面中文语料占比实在太少(95%都是英文数据),单就中文能力而言,确实没法儿拿来即用。

图片

相比之下,Qwen1.5110B的中文实力就靠谱多了。

能让歪果仁瞬间抓狂的中文水平测试,轻松拿捏:

图片

弱智吧Benchmark,也能应对自如:

图片

此外,还有不少网友提到了开源模型型号丰富度的问题。

图片

以Qwen1.5为例,推出不到3个月,已经连续开源8款大语言模型,参数规模涵盖5亿、18亿、40亿、70亿、140亿、320亿、720亿和1100亿,还推出了代码模型CodeQwen1.5-7B,和混合专家模型Qwen1.5-MoE-A2.7B。

随着大模型应用探索的不断深入,业界已经逐渐达成新的共识:在许多具体的任务场景中,“小”模型比“大”模型更实用。

而随着大模型应用向端侧的转移,丰富、全面的不同型号开源模型,无疑给开发者们带来了更多的选择。

“把开源进行到底”

如同大洋彼岸OpenAI引领闭源模型发展,而Meta靠开放权重的Llama系列另辟蹊径,在国内,阿里正是大厂中对开源大模型态度最积极的一家。

从Qwen到Qwen1.5,再到多模态的Qwen-VL和Qwen-Audio,通义千问自去年以来可谓开源消息不断。仅Qwen1.5系列,目前累计已开源10款大模型。

图片

阿里官方,也已直接亮明“把开源进行到底”的态度。这在卷大模型的互联网大厂中,确实是独一份。

所以,阿里坚持走开源路线,背后的底层逻辑是什么?

或许可以拆解为以下几个层面来分析。

首先,在技术层面,尽管以GPT系列、Claude系列为代表的闭源模型们目前占据着领先地位,但开源模型也“步步紧逼”,不断有新进展惊艳科技圈。

图片

图灵奖得主Yann LeCun就曾援引ARK Invest的数据认为“开源模型正走在超越闭源模型的道路上”。

图片

ARK Invest当时预测,在2024年,开源模型会对闭源模型的商业模式构成挑战。

而随着Llama3为标杆的新一波开源大模型的爆发,越来越多的业内专家也开始期待,强大的开源模型“会改变很多学界研究和初创公司的发展方式”。

图片

值得一提的是,开源模型独特的一重优势在于,来自开源社区的技术力量,同时也反哺了开源大模型的发展。

林俊旸就在量子位AIGC产业峰会上分享过,通义千问32B的开源,就是在因开发者们的反馈而推动的。

其次,在应用落地层面,开源大模型无疑起到了加速器的作用。

开源社区的热情就侧面佐证了开发者们把基础模型的控制权把握在自己手中的倾向性。

以通义千问为例,在HuggingFace、魔搭社区的下载量已经超过700万。

更实际的落地案例,也正在各行各业中持续实现。

比如,中国科学院国家天文台人工智能组,就基于通义千问开源模型,开发了新一代天文大模型“星语3.0”,将大模型首次应用于天文观测领域。

而对于推动开源的企业而言,打响的也不仅仅是名气和在开发者社区中的影响力。

通义千问的B端业务,也正因开源而加速。

最新消息是,通义大模型不仅“上天”,现在还“下矿”了。

继西部机场集团推出基于阿里云通义大模型打造的首个航空大模型后,西安塔力科技通过接入阿里云通义大模型,打造了新型矿山重大风险识别处置系统,并已在陕煤建新煤矿等十余座矿山上线,这是大模型在矿山场景的首次规模化落地。

目前,新东方、同程旅行、长安汽车、亲宝宝等多家企业均已宣布介入通义大模型。

图片

轰轰烈烈的百模大战硝烟渐散,当人们开始讨论闭源模型格局初定时,2024年,不得不说开源大模型给整个技术圈带来了不少新的惊喜。

而随着大模型应用开始成为新阶段探索的主旋律,站在开发者、初创企业、更多非互联网企业的角度而言,以Llama、通义千问等为代表的开源大模型越强,垂直行业结合做行业大模型的自由度就会越高,落地速度也会越快。

过去互联网的繁荣建立在开源的基础之上,而现在,在大模型风暴中,开源大模型再次显现出鲶鱼效应。

自研大模型的必要性和竞争力,正在不断被开源卷王们卷没了。


返回网站首页

本文评论
联发科技发布天玑9200+ 移动平台iQOO首发搭载「联发科天玑920相当于骁龙什么」
5月10日消息,联发科技今天发布天玑了9200+芯片,iQOO Neo8首发搭载。据联发科技介绍,天玑9200+ 的CPU和GPU性能较上一代得到显著提升,八核CPU包括1个主频高达3.35GHz的 Arm Corte...
日期:05-11
华为nova 11开箱:正面四边等宽 美极了_华为nova11什么时候上市
在这个周末,有博主提前开箱了华为nova 11手机,新机正面采用中置挖孔直屏,边框基本是四等宽,屏占比控制的非常好。华为nova 11屏幕尺寸是6.7英寸,材质为OLED,机身厚度只有6.88mm,比i...
日期:04-16
游戏史上最优秀的3A大作之一 《巫师3》销量破4500万:好评如潮「巫师三3a大作」
如果推荐一款好玩而且口碑又高的游戏,那么CDPR波兰蠢驴开发的《巫师3》准没错,7年来这款游戏好评如潮,现在的总销量也创造了一个新纪录4500万。CDPR公司CEO日前在一次会议上公...
日期:10-30
Sensor Tower 宣布收购聚合数据 AI 平台 data.ai_聚合数据ipo
3月19日 消息:移动应用&手游情报平台Sensor Tower 宣布,已完成收购聚合数据 AI 公司 data.ai(原名 App Annie)。这次收购对 Sensor Tower 意义重大,将扩大客户群、产品矩阵和全...
日期:03-19
雅虎宣布今年将裁员20% 本周将解雇1000人_雅虎裁员事件
  讯 北京时间2月10日早间消息,据报道,当地时间周四,美国老牌门户网站雅虎发布一份声明称,到今年年底前,该公司将解雇约20%的员工,其中本周之内,将立刻解雇1000名员工。  据悉,...
日期:02-13
售价超28万!Caviar推出定制苹果Vision Pro:3斤18K黄金闪瞎眼
快科技6月30日消息,Caviar是以为苹果iPhone系列打造奢华昂贵的替换外壳而闻名的俄罗斯奢侈品牌,旗下产品多用黄金、钻石等顶级材料制作,这也是它贵的主要原因。从Caviar官网了...
日期:06-30
腾讯向股东派发9.58亿股美团股票,腾讯总裁刘炽平卸任美团董事_腾讯持股美团多少
2022年11月16日消息,腾讯控股公告显示,将按合资格股东持有每10股股份获发1股美团B类普通股的基准,向于记录日期名列本公司股东名册上股东按彼等当时各自于本公司之持股比例,以实...
日期:11-19
特斯拉:多年来一直没管,加州监管已默许其使用"自动驾驶"等术语
苹果出新款上一代会降多少12月10日消息,特斯拉正在就其辅助驾驶功能使用“自动驾驶”等术语进行辩护。回应加州监管机构的指控时,该公司辩称,由于监管机构之前未采取任何行动,这...
日期:12-10
嫦娥八号来了!计划2028年前后发射_嫦娥八号来了!计划2028年前后发射
10月3日消息,在第74届国际宇航大会期间,国家航天局发布嫦娥八号任务国际合作机遇公告。根据公告,作为探月工程四期的重要任务,嫦娥八号计划于2028年前后实施发射,将开展月球多物...
日期:10-03
我国首条中低速磁浮盾构隧道贯通:6次下穿航油管线 施工难度极大
快科技5月8日消息,据新华社,长沙磁浮东延线接入T3航站楼项目磁浮T2站至磁浮T3站区间土建工程完成,由铁四院勘察设计、中铁十四局承建的我国首条采用盾构法施工的中低速磁浮隧道...
日期:05-08
手机cmcc登陆界面_手机cmccedu登录界面跳不出来
随着移动互联网的发展以及人们对手机依赖程度的加深,手机的重要性不言而喻。中国移动作为国内最大的移动网络运营商之一,其手机登录界面也一直备受关注。下面,我们来了解一下手...
日期:05-29
超3000人下单!米粉立flag:这次必买小米13 Ultra 512G版本_小米13锐龙版怎么样
快科技4月16日消息,一位米粉给小米集团卢伟冰留言,他说这次必买小米13 Ultra 12 512G版本。虽然手机价格还不知道,但已有众多米粉提前预订了小米13 Ultra。小米天猫官方旗舰店...
日期:04-17
5G商用四年结硕果,乘新型工业化东风再启新程_5g+工业
通信世界网消息(CWW)近日,习近平总书记就推进新型工业化作出重要指示,指出“新时代新征程,以中国式现代化全面推进强国建设、民族复兴伟业,实现新型工业化是关键任务”;提出“要把...
日期:11-02
小米13mpcamera「小米13 Ultra官图公布:传承徕卡M系列相机设计 支持IP68」
快科技4月17日消息,在公布外观展示视频之后,小米终于不再藏着掖着,直接公布了小米13 Ultra官图,并揭晓了设计理念。官方表示,这是与1954年诞生至今的徕卡M系列相机完全相同的设计...
日期:04-17
iOS16.1 Beta2正式推送:修复两项重要问题,果粉反馈也出炉了_更新ios14.2出错是什么意思?
众所周知,iOS系统一直都是以出色的流畅度为主打方向,但没有想到,自从进入iOS16之后,市场中的争议声一直都没有停止,带来了很多问题,导致用户体验非常差。要知道,卡顿、发热量大、功...
日期:09-29
心动了!iPhone 15 Pro超窄边框感受下:1.5mm破历史纪录 “跑马框”再见_iphonex窄边框
快科技8月6日消息,综合目前已知爆料来看,iPhone15系列将有7大升级。其中一个比较明显的直观变化是,新款iPhone全系边框都会更窄。iPhone15Pro、Pro Max的边框宽度仅为1.55mm,破...
日期:08-06
曾拒绝微软120亿美元收购,这家游戏聊天平台如今活得怎么样?(收购微软可能吗)
屎壳郎推粪球   对于游戏聊天平台Discord而言,拒绝微软120亿美元的收购要约可谓是一个“史诗般的狂妄案例”。 不过到目前为止,Discord的业务表现仍好于其它吃了疫情红利的...
日期:07-31
欧洲电动货车供货不足,中国厂商抢占先机_欧洲电动车市场分析
4月13日消息,传统汽车制造商在商用电动货车领域起步较晚,这给其他电动商用车制造商提供了机会。许多车队客户抱怨称,他们很难从福特、标致、雷诺或梅赛德斯等品牌获得足够的电...
日期:04-13
中国电信研究院联合中兴通讯完成业界首个多用户多场景智能超表面技术验证
通信世界网消息(CWW)近日,中国电信研究院联合中兴通讯完成业界首个多用户多场景智能超表面(RIS)技术验证,持续推进RIS技术创新演进。本次验证测试聚焦多用户室内外多场景下的基站-...
日期:10-10
多年前买的熊猫金币涨了800元 带火黄金回购业务「熊猫金币回购交易中心」
黄金价格大涨,一些手上持有黄金的人在考虑出手。使得黄金回购业务也火热起来,一些商场出现了排大队的情况。在多家黄金卖场,消费者们除了前来挑选购买黄金商品,还有很多消费者是...
日期:03-23