您的位置:首页 > 互联网

较上一代“云雀”提升19%,豆包大模型披露评测成绩_云雀豆怎么做好吃

发布时间:2024-05-27 12:08:03  来源:互联网     背景:

近日,豆包大模型在火山引擎原动力大会上正式发布。以超低价格掀起大模型降价潮的同时,豆包的模型能力也引发行业关注。

在火山引擎的一份产品资料中,豆包模型团队公布了一期内部测试结果:在 MMLU、BBH、GSM8K、HumanEval等11个业界主流的公开评测集上,Doubao-pro-4k 的总分为76.8分,相比上一代模型云雀Skylark2 的64.5分提升了19%,也优于同期测试的其他国产模型。

此次评测在今年5月完成,主要包括豆包通用模型-pro、云雀Skylark2 在内的九款国产大语言模型。除了云雀Skylark2 以外,其他模型均为各家厂商最新发布的高级版本,通过API调用进行测试。

云雀和云豆

一加9三段式按键

华为mate50 5g通讯壳什么时候能买到

图:豆包模型团队内部测试结果

评测结果显示,在评估代码能力的两个评测集 HumanEval 和 MBPP 上,豆包相比上一代模型提升了50%左右;在专业知识和指令遵循的评测集上,豆包分别获得33%和24%的性能提升,同时也是得分最高的国产模型。

此外,豆包模型在数学能力、语言理解能力,以及综合评测集 CMMLU 和 CEval 的评测上也有不错的表现,得分排在前三。综合11个公开评测集上的测试成绩,豆包通用模型-pro的总分为76.8分。根据OpenAI公布的测试成绩,GPT-4在这些评测集上的总分为80.1分,相比国产模型仍有一定领先优势。

据悉,豆包模型在5月15日刚刚推出,尚未加入到第三方机构测试中。预计未来一到两个月内,很多第三方评测机构将会陆续披露该模型的评测结果。与模型同名的AI对话助手“豆包”,官方公布的月活用户数已经达到2600万,用户可以自由体验测试。

此前,智源研究院公布了覆盖全球91个语言模型的评测报告。在偏重考察中文能力的主观评测中,云雀Skylark2 排名第一,中文能力超过 GPT-4。

云雀豆怎么做好吃

图:智源研究院语言模型评测结果(模型为4月20日之前的版本)


返回网站首页

本文评论
2.4万元!苹果首款MR头显Vision Pro发布:单眼像素超越4K电视_苹果mr头戴式显示器
快科技6月6日消息,在今日举行的苹果WWDC23开发者大会上,苹果在推出众多新品、新系统后,终于公布了发布会的One More Thing,正是传说中的苹果首款MR头显设备Vision Pro,这是一款打...
日期:06-06
荣耀magic6智能ai功能荣耀Magic6系列新品及战略发布引领科技潮流,荣耀以AI赋能全产业链
来源:中关村在线3月18日,荣耀春季旗舰新品发布会上正式在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,基于意图识别的全新人机交互,以及...
日期:03-19
华为第一、小米高成长晋级-5G标准必要专利全球排名再传捷报,中国企业已占半壁江山
近日,中国信息通信研究院发布《全球5G标准必要专利及标准提案研究报告(2023年)》,中国企业再传捷报,今年共有5家中国品牌入选TOP10榜单,较去年再添1家,目前已占据半壁江山。其中华...
日期:09-29
扎克伯格批苹果Vision Pro头显:社交属性太差 不如跟Meta
快科技6月9日消息,近日苹果终于发布了内部打造已久的Vision Pro头显,虽然售价达到2万多人民币,但配置和体验也成为业内天花板,比如单眼4K屏幕等。这让很多同类产品开发商都很受...
日期:06-09
谷歌 Pixel 8a 手机通过蓝牙 SIG 认证 属于中端机型
近日,谷歌 Pixel 8a 中端手机获得了蓝牙 SIG 认证,同时有四个不同型号:G8HNN、GKV4X、G6GPR 和 G576D。这意味着该款手机已经进入到了实锤阶段,并且有望在即将召开的 Google I /...
日期:04-05
SensorTower:地铁跑酷位列1月全球移动游戏下载榜榜首_2021年地铁跑酷
2月21日 消息:SensorTower发布《2023年1月全球热门移动游戏下载量TOP10》称,Miniclip旗下SYBO Games《Subway Surfers 地铁跑酷》以近2300万次下载,位列1月全球移动游戏下载榜...
日期:03-01
iPhone 14零件成本较13上涨20%:苹果卖一部仍能赚5000多元_苹果13成本分析
2022年由于通胀、物流及大宗商品原料等原因,电子产品的成本都会有不同程度上涨,苹果的iPhone 14手机也不例外,日本拆解显示iPhone 14系列手机的零部件成本比iPhone 13上涨了20%...
日期:10-07
特斯拉功勋CFO突然裸辞!加盟13年、一度被视为马斯克接班人「ceo特斯拉」
就挺突然的,特斯拉功勋CFO,马斯克继承人的潜在人选,Zack 扎克(扎克·柯克霍恩),今天突然辞职了。消息传出,特斯拉股价跌幅一度达到了4%。作为特斯拉高管,扎克今年才38岁,但已经在特斯...
日期:08-09
严把网络安全关|CIS 2020天威诚信精彩亮相
  12月29日,CIS 2020网络安全创新大会在上海正式开幕,本次大会由FreeBuf、赛博研究院、上海市信息安全行业协会联合主办。“数字转型,安全超频”——从FIT到CIS,再到CIS第二...
日期:07-16
抖音在微短剧布局领域的特点「抖音打击违规微短剧 累计下架小程序内违规微短剧119部」
11月16日 消息:抖音发布关于打击违规微短剧的公告称,近日,平台在日常巡查中发现,部分微短剧小程序含有不良价值观导向、低俗“擦边”等违规内容,部分账号涉及推广违规微短剧或大...
日期:11-16
Lexar雷克沙高校电竞挑战赛北京场圆满落幕!高能存储产品助力选手腾飞
随着Lexar雷克沙2024高校电竞挑战赛城市决赛在各大城市展开,这场赛事所受关注度空前高涨,高校学生的电竞热情被激情四溢的竞技氛围和紧张刺激的比赛对决所点燃。5月14日,在北京...
日期:05-16
马斯克被刺杀「声称该联盟“试图杀死”X,马斯克威胁要起诉反诽谤联盟」
9月5日消息,当地时间周一社交媒体X老板埃隆·马斯克(Elon Musk)威胁要起诉反诽谤联盟(ADL),称其“试图杀死”X。根据ADL的记录,在马斯克去年收购社交媒体推特之后,平台上的不良言...
日期:09-11
格力一夜完成河北市场系统切换 经销商直呼董明珠是个狠人_董明珠的格力分销商城
一夜之间,此前被格力电器取消了格力空调河北省代理资格的河北盛世欣兴格力贸易有限公司突然发现自己的格力空调的售后服务平台已被关闭。这是继8月22日格力电器突然宣布授权...
日期:09-16
首发天玑9200+ iQOO Neo8系列发布首销售价2299元起 「」「天玑920相当于骁龙855」
2023年5月23日晚,iQOO Neo8系列正式发布。其中,Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场,限时售价3099元起;价位段最强性能手机iQOO Neo8同期上市,限时售价2299元起。iQOO N...
日期:09-17
有道ceo 周枫「网易有道周枫:携手联想共建AI PC新生态,加速教育行业AI普惠」
2023 年尾声之际,联想集团携手AI技术、应用、算力等领域生态合作伙伴为明年的AI PC元年按下了启动按键。 12 月 7 日,以“AI新生态 智启新元年”为主题的首届AI PC创新论坛在...
日期:12-11
火车站保洁阿姨不慎弄脏乘客衣服跪地道歉 公司回应:已和解「火车站保洁工作内容」
6月30日,有网民发文反映称,衢州火车站保洁阿姨不慎弄脏乘客衣服,因赔偿问题跪地道歉。手机号码查询机主姓名软件官方下载对此,保洁所在公司一清环境管理(浙江)有限公司通过其官方...
日期:07-01
“脸基尼”又火了!有店铺一天狂卖5万件 还带“鱼骨”_为什么叫脸基尼
快科技4月6日消息,曾经火爆一时的脸基尼”,今年又火了。据央视报道,随着气温回升,像防晒衣、防晒口罩、冰丝袖套等物理防晒装备,最近持续受到市场青睐。不少商家还推出了带鱼骨的...
日期:04-07
谷歌宣布Gemini 1.5 Pro开放API 新增多项功能_谷歌 nest mini
4月10日 消息:Google宣布开放其AI模型Gemini1.5Pro的API,这一版本在原有基础上进行了大幅度的功能扩展,现已在180多个国家提供。Gemini1.5Pro引入了对原生音频(语音)的理解能力,...
日期:04-10
广西自然影像征集活动_广西自然概况
(原标题:广西自然影像征集活动 | 秘境魅影·万物共生) 穿花蛱蝶深深见,点水蜻蜓款款飞 或许是时候,静下心来鲜切花物流 等一股风...
日期:11-14
国产游戏《黑神话:悟空》「国产标杆3A大作!《黑神话:悟空》DLSS 3最新实机:BOSS战特效酷炫」
快科技8月20日消息,今日,游戏科学在杭州举办了《黑神话:悟空》首次线下千人试玩会,玩家在现场体验了诸多未公布的游戏关卡。随后,英伟达GeForce官方公布了GeForceRTX 40系GPU开启...
日期:08-22