您的位置:首页 > 互联网

阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!_阿里开源 kpi

发布时间:2024-09-19 17:40:30  来源:互联网     背景:

声明:本文来自于微信公众号 AIGC开放社区,作者:AIGC开放社区,授权转载发布。

今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

如果不想进行繁琐的部署,阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API,帮助你快速开发或集成生成式AI功能。

阿里的开源

开源地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github:https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo:https://huggingface.co/spaces/Qwen/Qwen2.5

API地址:https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

下面AIGC开放社区详细为大家介绍这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

虽然Qwen2.5只有720亿参数,但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;全面超过了Mistral最新开源的Large-V2指令微调模型,成为目前最强大参数的开源模型之一。

即便是没有进行指令微调的基础模型,其性能同样超过Llama-3-405B。

阿里开放API的旗舰模型Qwen-Plus,其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

此外,Qwen2.5系列首次引入了140亿和320亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct,与闭源模型GPT-4o mini相比,只有三项测试略低其他基准测试全部超过。

自阿里发布CodeQwen1.5以来,吸引了大量用户通过该模型完成各种编程任务,包括调试、回答编程相关的问题以及提供代码建议。

本次发布的Qwen2.5-Coder-7B指令微调版本,在众多测试基准中,击败了那些知名且有较大参数的模型。

阿里开源官网

前不久阿里首次发布了数学模型Qwen2-Math,本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练,包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持,并通过CoT、PoT和 TIR的能力来加强其推理能力。

其中,Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

其实从上面这些测试数据不难看出,即便是参数很小的模型,在质量数据和架构的帮助下,同样可以击败高参数模型,这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

Qwen2.5系列简单介绍

Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似,Qwen2.5语言模型支持高达128K tokens,并能生成最多8K tokens的内容。

与Qwen-2相比,Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens,超过了Meta最新开源Llama-3.1的15万亿,成为目前训练数据最多的开源模型。

知识能力显著增强,Qwen2.5在 MMLU 基准测试中,与 Qwen2-7/72B 相比从70.3提高到74.2,从84.2提高到86.1。Qwen2.5在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

Qwen2.5能够生成更符合人类偏好的响应,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2,MT-Bench分数从9.12提高到9.35。

lazada官方跨境电商运营全书

数学能力获得增强,在融合了Qwen2-math的技术后,Qwen2.5的数学能力也得到了快速提升。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外,Qwen2.5在指令跟踪、生成长文本(从1k增加到超过8K标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是JSON)方面实现了显着改进。同时对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。


返回网站首页

本文评论
金立生死倒计时:资金危机难解 刘立荣如何独善其身_金立的老板刘立荣输100亿
  北京商报记者发现,金立手机的官网已无法打开,且深圳市中级人民法院近日举行了金立第一次债权人会议,根据有关报道,会议认定金立债权总额为173.59亿元,负债达到近211亿元,金立...
日期:05-16
人类通勤极限「你上班路上要多久?全国仍有超1400万人承受极端通勤」
8月18日,中国城市规划设计研究院发布《2023年度中国主要城市通勤监测报告》。该报告选取了45个中国主要城市,汇聚了9000万人的职住通勤数据。华为便携式蓝牙音箱airport city...
日期:08-18
大型救援船「排水量1.9万吨!中国最大深远海多功能救助船投入使用」
快科技1月30日消息,我国自行设计建造的深远海大功率多功能综合救助船南海救103”,已经列编交通运输部南海救助局,今日正式投入使用,填补了我国深远海综合搜救能力的空白。南海救...
日期:01-30
火河LM平台全新升级 线上服务提升蓄势待发
  众所周知,一家有成熟生态能力的智能硬件企业,都至少有一套对外开放的API接口和设备在线管理平台。对火河科技来讲,前者是已经开放已久的OpenAPI平台,而后者则是被数万家客...
日期:12-26
夏促steam2024游戏推荐多款热门游戏迎来新史低_Steam夏促正式开启
来源:中关村在线游戏迷们翘首以盼的时刻终于来临!在6月28日凌晨,备受瞩目的Steam夏季促销活动正式拉开帷幕。此次特卖活动不仅涵盖了多款热门游戏,而且优惠力度之大,令人瞩目。许...
日期:07-01
15个很酷的AI音频编辑工具 一句话生成流行音乐
8月18日 消息:现如今,越来越多的音频工程师和音乐制作人利用人工智能音频工具,来提升创作过程中的多个方面,如生成旋律和和声、提高音质等。由于其能够分析大量数据集并检测复...
日期:08-18
特斯拉于济南投资设立半导体公司,注册资本1. 5亿美元_路特斯股东
11月25日 消息:企查查APP显示,近日,安纳思半导体(济南)有限公司成立,法定代表人为Enoch Thomas,注册资本1.5亿美元,经营范围包含:半导体分立器件制造;集成电路芯片及产品制造;集成...
日期:11-26
北斗导航卫星「卫星,未来太空数据的」
想让太空数据服务普通人,需要给卫星装上「新大脑」。作者 | Founder Park俄乌战争中,SpaceX 的星链突然成为了大众的关注点。在战争开始后,马斯克迅速为乌克兰开启了星链服务,很...
日期:09-27
投资或收购某家通达系快递公司?抖音回应:不实消息
抖音这几年也在积极发展电商业务,日前有消息称抖音正在酝酿投资或者收购通达系快递公司,不过这个说法遭到了抖音否认。抖音电商负责人表示此为不实消息。通达系快递公司中,中通...
日期:08-15
女子称发现公司发假月饼后被开除:给了N 1的赔偿_老板卖假月饼员工会怎样
9月27日消息,据媒体报道,江苏苏州一位女子吃公司发的美心月饼,竟吃出一根头发,准备打电话投诉,却发现包装上没有客服电话,扫包装上的二维码也扫不出内容,询问公司人事却被指事多。...
日期:09-28
鲁大师2024年手机Q1季报:骁龙天玑高端博弈,AI已成不可逆的大趋势_鲁大师 2020
其实能够很明显的感觉到,2024年的智能手机Q1市场,恢复了近几年少有的那种激情和热闹,AI的到来,让疲于奔命在性能、影像、系统、生态之外的手机厂商们终于看到了新的发展方向。微...
日期:04-08
macbook 新品「WWDC发布更多硬件?包括一系列新的MacBook」
除了传闻中的头戴产品,苹果可能计划在WWDC期间推出更多硬件,一系列新的MacBook型号将亮相。随着上汽大众全新一代帕萨特车型的上市,这个中国B级虽然WWDC应该是以软件和开发人...
日期:04-17
秒出PPT——引领智能演示新潮流_ppt 秒表
在数字化时代,信息的快速传递和有效展示成为了企业和个人成功的关键。杭州简则智能科技有限公司凭借其在人工智能领域的深厚技术积累,推出了一款名为“秒出PPT”的革命性产品,...
日期:03-29
马斯克疯狂开喷扎克伯格不讲武德,线下约架离我们越来越近!_马斯克超过扎克伯格
马斯克疯狂开喷扎克伯格不讲武德,究竟是因为啥? (来源:科技大佬见闻) 马斯克想暴揍小扎的决心越发坚定!昨天Meta上线类推特应用Threads可以发...
日期:07-07
2030年特斯拉销量「2023年6月中国销量最高车型出炉:特斯拉Model Y遥遥领先」
快科技7月10日消息,乘联会今天发布了《2023年6月份全国乘用车市场分析》。数据显示,6月总体乘用车批发销量超两万辆的车型有16个(去年同期20个),其中新能源车位列总体乘用车车型...
日期:07-10
nbc环球和环球影业的关系「承认与员工存在“不正当关系” NBC环球CEO引咎辞职」
4月24日消息,美国最大有线电视运营商康卡斯特宣布,其子公司NBC环球首席执行官杰夫·谢尔(Jeff Shell)在承认与一名女员工存在“不正当关系”后,于当地时间周日引咎辞职。谢尔在一...
日期:04-24
保时捷全球销量分布「国人不再迷恋保时捷!全年销量下滑15% 失去全球第一大市场」
快科技1月14日消息,保时捷近日公布了2023年销量数据,去年全球销量为320,221辆,同比增长3%。不过,与其它地区业绩稳步向好不同,中国市场保时捷已经出现巨大的危机。黑莓高端手机分...
日期:01-14
华为抢先苹果支持卫星通信!全球首颗北斗短报文SoC芯片进入量产「华为与北斗卫星联合研发成功卫星通信」
在华为和苹果的带动下,“卫星通信”成为最近热议的话题之一,业内猜测,华为将携手北斗三号系统实现手机卫星通信技术的大众化应用。日前,国内独立第三方集成电路测试技术服务商利...
日期:09-20
广州地铁回应乘客欠600多万巨款:手机NFC卡异常 正在分析_广州地铁app nfc
5月9日消息,日前有网友称自己一夜醒来欠地铁600多万”,此事引发热议。据该网友介绍,他自己本月7日坐地铁,是能进站不能出站,服务中心半天也没解决问题,自己想着也就是故障,最多扣全...
日期:05-10
苹果16屏幕供应商16全系屏幕供应商敲定_三星独占鳌头 苹果iPhone
来源:中关村在线据最新消息,三星和LG已获准为苹果的iPhone 16系列手机供应OLED面板。据了解,三星将为全系列四款机型提供面板,而LG只负责两款Pro机型。今年三星的订单量约为9000...
日期:06-07