您的位置:首页 > 互联网

智源研究院:国内头部模型已达国际一流水平,但能力发展不均衡

发布时间:2024-05-20 06:20:27  来源:互联网     背景:

通信世界网消息(CWW)在北京智源研究院(智源研究院)大模型评测发布会上,智源评测体系发布并公布了140余个国内外开/闭源语言及多模态大模型能力评测结果。评测结果显示,在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡情况;在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出;在中文语境下的文生图能力上,国产多模态模型与国际一流水平差距较小。

据评测结果,在中文语境下,字节跳动豆包Skylark2、OpenAI GPT-4位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能Baichuan3位列第一、第二。百度文心一言4.0、智谱华章GLM-4和月之暗面Kimi均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义Qwen-vl-max与上海人工智能实验室InternVL-Chat-V1.5先后领先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能实验室Intern-XComposer2-VL-7B紧随其后。

在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异。评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。

据介绍,2023年6月,智源研究院与多个高校团队共建FlagEval大模型评测平台上线,迄今为止已完成1000多次覆盖全球多个开源大模型的评测和报告发布。本次评测使用了20余个数据集、超8万道考题,包括与合作单位共建和智源自建的多个评测数据集。

小米移动 esim


返回网站首页

本文评论
YouTuber 收益调整,谷歌代美国观众收税:拒交税单者将扣除 24% 收入_YouTube收入要交税吗
  3 月 10 日,当地时间周二谷歌旗下视频网站 YouTube 在发给全球 up 主的一封电子邮件中表示,平台支付方式发生了变化,所有 up 主都需要根据美国税率缴税。谷歌表示,在不提交...
日期:07-16
魅族21官宣发布地点魅族21焕新正当时 魅族2023年终盛典开启
来源:中关村在线中关村在线消息:12月20日,魅族宣布2023年终盛典开场,魅族21可享12期免息、限量赠移动电源, 魅族20系列限时至高立省1500元、享至高24期免息,还有更多优惠等你解锁...
日期:12-21
进入二审审理,今日头条状告今日油条一审败诉_今日头条诉今日油条判决书
4 月 18 日消息,就今日头条状告今日油条一案,广州知识产权法院公布一审判决结果,驳回原告北京抖音信息服务有限公司的全部诉讼请求。一审宣判后,抖音公司不服判决已提起上诉。本...
日期:10-02
南洋理工大学 视频「南洋理工开源创新性文生视频模型FreeInit」
要点:1、创新性文生视频模型FreeInit通过重新初始化噪声,改进时间的一致性。2、研究人员发现视频扩散模型的推理初始化噪声中低频信息很难被完全移除。苹果将lightning接口换...
日期:01-05
Twitter:第二季度招聘明显放缓
ubuntu 20.04 lts无法联网亚马逊支付关联百事可乐以什么为契机推出了   讯 北京时间7月27日早间消息,据报道,当地时间周二,Twitter表示,在今年第二季度“明显放缓了招聘速度”...
日期:07-31
GSMA:全球5G连接突破15亿,5G价值不断释放
通信世界网消息(CWW)10月10日,第十四届全球移动宽带论坛在迪拜举办,全球移动网络运营商、垂直行业领导者、以及生态合作伙伴齐聚一堂,共创产业繁荣生态,共谋5G商业化的成功之道,共...
日期:10-11
永中专利被指贱卖 唐敏为自己评核高基专项
  中国软件资讯网消息 近日,针对“永中科技公司破产”一事,业内专家袁萌利用自己的博客大声声援永中科技原CEO兼首席架构师曹参,并毫不忌讳地指出:“这是方存好与唐敏使用了...
日期:07-28
何小鹏盛赞GPT4:既是趋势又在眼前又可产生颠覆
3月15日 消息:针对今日推出的GPT-4,小鹏汽车董事长何小鹏表示:“GPT是最近数年的全新技术浪潮中,包括元宇宙,区块链,Web3中等中我唯一觉得既是趋势又在眼前又可产生颠覆的。”淘...
日期:03-15
《面向机器视觉安防摄像机图像质量评测方法研究报告》白皮书发布
  近年来,随着机器视觉的日益成熟,基于机器视觉评价、成像能力评价开始逐步推出。比如自动驾驶领域,业界开始制定图像质量的主观和客观测试方法,即给人看和给机器看的标准体...
日期:07-16
伯克利global access program「UC伯克利团队用ChatGPT做研究 一个小时就能完成学生多年的工作」
文章概要:1. UC伯克利团队用ChatGPT生成大型数据集,研究应对气候变化用的金属有机框架(MOF)。2. 通过“提示工程”,ChatGPT提取论文数据达95%准确率。3. 研究表明,ChatGPT可加速...
日期:09-06
小杨哥称他不得已才当网红 一路充满挑战和艰辛_小杨哥全名
近日,知名主播小杨哥在直播间分享了自己对于网红职业的看法,劝诫观众不要轻易涉足这一领域。他强调,当网红并不是一个光荣的职业,而是充满挑战和艰辛。小杨哥表示,这是自己 7 年...
日期:01-03
腾讯股东出售1.92亿股「腾讯控股:回购127万股,共耗资约3.5亿港元」
  财联社9月28日电,腾讯控股9月28日回购127万股,回购价格为273.6-279.8港元,共耗资约3.5亿港元。2022ipad mini6更新最新官方消息极米投影仪双十一小米手机老总雷军...
日期:09-30
2018年度小春社平台销量呈爆发式增长,滚雪球效应逐渐凸显
  一边,整个时尚领域已经从单向内容生产向多交互、多介质、多形态的新模式转变,另一边,社交经济的迅猛发展,给各行各业都带来了新的思考。对此,小春社也以全新的架构与姿态迎...
日期:02-12
MPU 可提供高达80TOPS的AI推理性能 瑞萨推出RZ/V2H_瑞萨rcar m3
【】3月1日消息,全球半导体解决方案供应商瑞萨电子近日宣布推出一款面向高性能机器人应用的新产品——RZ/V2H,进一步扩展其广受欢迎的RZ产品家族微处理器(MPU)。RZ/V2H打造了产...
日期:03-01
2022的卷王又杀回来了!13代暗影骑士·擎16“火力全开,一卷到底”!
 前段时间掠夺者·擎NEO做为新晋电竞本战神刚上市就获得一片好评啊,宏碁这又马不停蹄很快带来了全新游戏本扛把子暗影骑士·擎16,可以说产品线布局非常完美了!暗影骑士·擎 1...
日期:05-04
leonardo绘画软件官网「Leonardo AI官网体验入口 AI图像生成软件app免费下载地址」
Leonardo AI不仅是一个AI艺术生成器,它是一个开创性的工具,能够以前所未有的质量、速度和风格一致性创建专业级的视觉素材。无论是预训练的AI模型还是用户自行训练的模型,Leona...
日期:12-27
ios 17+「17推出时间确定 「多项史诗级功能_iOS」」
苹果即将于6月6日至10日举行全球开发者大会(WWDC 2023),向用户推出iOS 17、iPadOS 17、tvOS 17、watchOS 10和macOS 14新系统。当当网自出版事业部余承东畅谈在华为的24年其中,i...
日期:09-17
亚马逊第二季度财报「亚马逊第三季度营收1271亿美元 净利润同比下降9%」
  讯 北京时间10月28日凌晨消息,亚马逊今天发布了该公司的2022财年第三季度财报。报告显示,亚马逊第三季度净销售额为1271.01亿美元,与去年同期的1108.12亿美元相比增长15%,不...
日期:10-28
今日AI:suno v3模型要抢歌手饭碗?字节发布AnimateDiff-Lightning模型;谷歌发布Vlogger视频模型;博主用AI做长篇漫画上架腾讯
欢迎来到【今日AI】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。苹果airpods真的实用暗黑...
日期:03-20
飞书智能伙伴在落地:看看安克创新、元气森林怎么玩?
(原标题:飞书智能伙伴在落地:看看安克创新、元气森林怎么玩?) 11月22日,飞书发布新产品“飞书智能伙伴”,要帮助万千企业进行AI时...
日期:11-25