您的位置:首页 > 互联网

阿里通义Qwen2成斯坦福大模型榜单最强开源模型

发布时间:2024-06-20 21:19:16  来源:互联网     背景:

通信世界网消息(CWW)6月20日消息,斯坦福大学的大模型测评榜单HELM MMLU发布最新结果,斯坦福大学基础模型研究中心主任Percy Liang发文表示,阿里通义千问Qwen2-72B模型成为排名最高的开源大模型,性能超越Llama3-70B模型。

苹果安全漏洞最新消息

MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等57项任务,用以测试大模型的世界知识和问题解决能力。但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。

斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),旨在创造一种透明、可复现的评估方法。该方法基于HELM框架,对不同模型在MMLU上的评估结果进行标准化和透明化处理,从而克服现有MMLU评估中存在的问题。比如,针对所有参评模型,都采用相同的提示词;针对每项测试主题,都给模型提供同样的5个示例进行情境学习,等等。

日前,斯坦福大学基础模型研究中心主任Percy Liang在社交平台发布了HELM MMLU最新榜单,阿里巴巴的通义千问开源模型Qwen2-72B排名第5,仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4,是排名第一的开源大模型,也是排名最高的中国大模型。


返回网站首页

本文评论
Heygen发布Avatar in Motion 1.0新功能 不只对口型,还能复制你的动作、姿态
3月28日 消息:Heygen近期发布了其Avatar in Motion1.0新功能,这一技术革新在虚拟角色动作捕捉和声音克隆方面取得了重大突破。直播 音乐 版权该功能可以精确地保持口型同步,并...
日期:03-28
智能车速控制的理解「Mobileye发布首个纯视觉智能车速辅助系统」
通信世界网消息(CWW)Mobileye全新标志检测技术正式通过了欧洲的审批,这是首个符合全新欧盟法规要求的纯视觉解决方案,计划于2023年第四季度量产。redmi k50什么时候出 2023年7...
日期:07-19
WPS AI: 金山官方发布中文官方版GPT_正版金山wps办公软件
4月19日 消息:金山办公室也发布了中文办公室官方版GPT——WPS AI,将搭载到金山办公新一代在线内容协作编辑产品——轻文档上,而在未来,WPS AI将嵌入金山办公全线产品。细节:倍...
日期:04-19
携程发布五一数据报告:国内十大最热门旅游城市出炉 北京上海杭州前三
快科技5月5日消息,五一假期最后一天,携程发布了《2024五一假期旅行总结》。携程数据显示,五一假期,国内最热门的旅游目的地依次为:北京、上海、杭州、成都、重庆、广州、南京、武...
日期:05-05
喵喵党狂喜!雷蛇推猫耳、兔耳头戴耳机 1699元_雷蛇猫耳耳机怎么装
10月16日,雷蛇推出北海巨妖萌猫专业版V2耳机,售价1699元。三星s20 fe 5g对比s21感冒进了icu会是什么病据雷蛇官方介绍,该耳机配备3对可更换耳朵造型,分别为猫耳、熊耳和兔耳,可根...
日期:10-18
买vivo x fold3十大忠告X Fold3系列给出98%好评率 京东“先人一步”用户为vivo
来源:中关村在线4月3日,vivo X Fold3系列正式开售,售价6999元起。很多消费者参与了京东携手vivo打造的“先人一步”计划,在3月26日新品发布会结束当晚就下单了新机,享受到现货优...
日期:04-03
VoiceEngine官网体验入口 OpenAI人工智能语音克隆合成工具使用地址_voice transformer
Voice Engine是OpenAI推出的一种先进的语音合成模型,它仅需 15 秒的语音样本,便能生成与原始说话人极为相似的自然语音。安卓微信怎么弄成暗黑模式该模型广泛应用于教育、娱乐...
日期:04-01
人人都是歌手,腾讯音乐启明星AI音色魔法师正式上线
(原标题:人人都是歌手,腾讯音乐启明星AI音色魔法师正式上线) facebook改名为meta背景华为 万能钥匙 日前,腾讯音乐启明星正式推出...
日期:12-13
“世界地球日”搜搜问问联动国家地理频道(有关世界地球日)
  4月22日,搜搜问问与美国国家地理频道合作的主题为“珍惜地球资源 转变发展方式”的世界地球日专题正式上线,专题涵盖了世界地球日活动动态、热门标签以及相关专题,同时,专...
日期:07-27
知乎最新变动:PC网页端非登录用户已无法查看回答全文_未登录知乎账号浏览别人会被知道吗
快科技5月27日消息,近期,知乎平台的一项新变动引起了用户的广泛关注。1tb内存有哪些据媒体报道,非登录用户在PC网页端访问知乎时,已无法查看回答的全文内容。良品铺子什么零食连...
日期:05-27
单张A100,50亿步训练,英伟达开源最强虚拟角色定制模型,超逼真动作零样本生成,游戏动画行业要变天
声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,编辑:好困 润,授权转载发布。近日,英伟达正式开源了超强虚拟角色定制模型CALM。基于此,开发者可以利用AI,零样本生成复杂...
日期:08-14
iPhone录音会通知对方?苹果回应:要等iOS18正式发布_苹果录音会同步吗
近日,关于iPhone新增通话录音功能的消息引发了广泛关注。据悉,苹果公司即将发布的iOS18系统将支持通话录音功能,但据称录音时会自动通知对方,这一设定引发了网友们的热议。四好...
日期:06-11
华为mate60手机价格及图片「传华为Mate60系列后再无保时捷设计款 荣耀会接手」
  【手机中国新闻】9月3日,华为Mate 60系列将在线下迎来一波开售,此前先锋计划没有抢到的用户可以前往线下购买。在Mate 60和Mate 60 Pro之外,一直是个谜的Mate 60 Pro+和Mat...
日期:09-03
很多人从iPhone换小米14!网友称14 Pro终于将女友转化:8年iPhone死忠粉_小米14和苹果11
快科技12月10日消息,小米14是小米最成功的旗舰机,销量口碑双收,还转化了很多iPhone用户。今日,雷军发微博称:很多人从iPhone换用小米14,大家说说使用体验。 ”有网友跟帖表示:8年了...
日期:12-10
美国人工智能分析美登月照片为合成的,普京称“有意思”_美国登月照片骗局
综合俄新社、《报纸报》网站等多家俄媒24日报道,俄罗斯总统普京在莫斯科出席“人工智能世界之旅”国际会议期间参观了关于人工智能产品的展览。他在展览上被告知,美国谷歌公司...
日期:11-27
小米14摄像头「小米14 Ultra专业摄影套装官宣:Type-C直连 秒变单反」
快科技2月22日消息,小米14 Ultra今晚就要发布,官方在发布之际先公布了全新的专业摄影套装。rx550 5600g与前代一样,这次小米14 Ultra的摄影套装依然以保护壳形态为主,附带一个支...
日期:02-22
B站公布2024视频创作激励年度计划 重点关注无变现能力UP主_b站创作激励计划什么时候结束
3月18日 消息:B站宣布,自2024年起,特别推出了“视频创作激励计划”,旨在扶持那些怀揣梦想、充满才华的创作者们,特别是在他们创作的初期阶段。该计划以年度为周期,不断更新和进化...
日期:03-18
天时地利人和!看诺基亚贝尔吴忠胜解读800GE_诺基亚贝尔是做什么的
通信世界网消息(CWW)6月4日至6日,由工业和信息化部主办的“第31届中国国际信息通信展览会”(以下简称PT展)在北京国家会议中心举行。诺基亚贝尔以“释放网络无限潜能”为主题参展...
日期:06-14
为什么说共享智能是破解数据孤岛的“关键钥匙”
  人工智能时代,最重要的是什么?数据!   使用数据时,最关心的问题是什么?隐私!   随着经济全球化的发展,数据已然成为当今世界最具价值的资源。在人工智能领域,数据的地...
日期:09-02
天猫精灵公司申请“未来精灵大模型”等商标_天猫精灵来啦
9月11日 消息:天眼查App显示,9月5日,天猫精灵关联公司浙江艾克斯精灵人工智能科技有限公司申请注册多个“精灵大模型”“未来精灵大模型”商标,国际分类为广告销售、教育娱乐、...
日期:09-11