您的位置:首页 > 互联网

豆包文科成绩超了一本线,为什么理科不行?

发布时间:2024-07-01 16:33:34  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:金磊,授权转载发布。

什么?好多大模型的文科成绩超一本线,还是最卷的河南省???

图片

图源:极客公园

没错,最近就有这么一项大模型“高考大摸底”评测走红了。

河南高考文科今年的一本线是521分,根据这项评测,共计四个大模型大于或等于这个分数,其中头两名最值得关注:

  • GPT-4o:562分

  • 字节豆包:542.5分

  • ……

从结果中来看,GPT-4o的表现依旧是处于领先状态,而在国产大模型这边,比较亮眼的成绩便属于豆包了。

并且在语文历史等科目的成绩甚至还超越了GPT-4o。

这也让不少网友纷纷感慨:

AI文科成绩这么好,看来在处理语言和逻辑上还是很有优势的。

图片

不过有一说一,毕竟国产大模型的竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?

先看评测榜单

要回答上述的问题,我们不妨先来查一查豆包在最新的权威评测榜单中的表现是否一致。

首先有请由智源研究院发布的FlagEval(天秤)。

它的评测方式是这样的:

  • 对于开源模型, FlagEval会综合概率选择和自由生成两种方式来评测,对于闭源模型, FlagEval只采用自由生成的方式来评测,两种评测方式区别参照。

  • 主观评测时部分闭源模型对极小部分题目有拒绝回答的情形,这部分题目并没有计入能力分数的计算。

“客观评测”这个维度上,榜单成绩如下:

图片

不难看出,这一维度下的FlagEval中,前四名的成绩是与“高考大摸底”的名次一致

大模型依旧分别来自OpenAI、字节跳动、百度和百川智能。

并且豆包在“知识运用”和“数学能力”两个维度上成绩还高于第一名的GPT-4。

若是将评测方式调节至“主观评测”,那么结果是这样的:

图片

此时,百度的大模型跃居到了第一名,而字节的豆包依旧是稳居第二的成绩。

微信视频号规模

由此可见,不论是主观还是客观维度上,前几位的名次都是与“高考大摸底”的成绩是比较接近的。

接下来,我们再来有请另一个权威测评——OpenCompass(司南)。

图片

在最新的5月榜单中,豆包的成绩也是仅次于OpenA家的大模型。

同样的,在细分的“语言”和“推理”两个维度中,豆包还是超越了GPT-4o和GPT-4Turbo。

但与专业评测冷冰冰的分数相比,人们都对高考有着更深刻的体验和记忆。

那么接下来我们就通过豆包回答高考题,来看看大模型在应对人类考试时的具体表现。

再看实际效果

既然目前许多试卷的题目都已经流出,我们不妨亲测一下豆包的实力。

例如让它先写一篇新课标I卷语文的作文题目:

随着互联网的普及、人工智能的应用,越来越多的问题能很快得到答案。那么,我们的问题是否会越来越少?

以上材料引发了你怎样的联想和思考?请写一篇文章。

要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

图片

结果由豆包PC端对话生成

从豆包的作答上来看,是已经摆脱了AI写作文经常犯的“首先-其次-以及-最后”这种模板式的写法,也擅长引经据典来做论证。

但毕竟每个人对于文笔的审美标准不同,因此豆包高考作文写得如何,评价就交给你们了(欢迎在留言区讨论)。

值得一提的是,在量子位向豆包团队询问后得知,原来豆包PC端对话手机端“拍题答疑”是两种截然不同的招式——

前者走的是LLM链路,后者走的则是RAG链路(若是用豆包手机端“拍题答疑”功能,高考数理化成绩也能接近满分)。

加上在这次“高考大摸底”评测出炉之后,很多网友们都将关注的重点聚焦到了数学成绩上:

AI也怕数学。

图片

因此,接下来的实际效果测试,我们就将以“LLM链路+数学”的方式来展开。

先拿这次的选择题来小试牛刀一下:

图片

当我们把题目在PC端“喂”豆包之后,它的作答如下:

图片

因此,豆包给出的答案是:

A、C、D、D、B、B、A、A

这里我们再来引入排名第一选手GPT-4o的作答:

A、D、B、D、C、A、C、B

图片

而根据网上目前多个信源得到的标准答案是:A、C、D、A、B、B、C、B。

对比来看,豆包对5道,GPT-4o答对4道。

而对于更多的数学题的作答,其实复旦大学自然语言处理实验室在高考试卷曝光后第一时间做了更加全面的测试(所有大模型只能依靠LLM推理答题,不能通过RAG检索答案):

图片

图片

图源:复旦大学自然语言处理实验室

由此可见,大模型并不能完全hold住高考数学题目,并且不同人生成答案的结果也会出现偏差。

并且量子位在反复测试后发现,豆包对话答题时有一定随机性,多轮测试时的结果并不完全一样。上文只取样其中一轮的结果。

这也正如广大网友所反馈的那般——大模型文科强、理科弱

对此,技术圈也已经有一些讨论和解释:

大语言模型的基本原理是“文字接龙”,通过预测下一个token来生成内容,每次预测都有随机性和概率分布。

当大语言模型学习了海量知识数据,天然就适应考验记忆能力和语言运用的文科考试。

但理科考试主要考验推理和计算,比如一道数学题包含5步推理和5步计算,假设大语言模型每一步预测准确的概率都有90%,综合下来的准确率就只有35%。

另一方面,理科语料比较稀缺。大模型的训练数据中,文科语料要远远大于理科语料。这也是大模型更擅长文科的一个原因。

大模型都在努力提升智能水平,主要目标就是提高推理和计算能力。目前学界对此存在争议,有观点认为,“预测下一个token”本身就包含了推理,计算也是一种推理。

只要Scaling Law生效,大模型性能持续提升,推理和计算能力就能够提升;但也有反对者(如Yann LeCun)认为,大语言模型缺乏真正的规划推理能力,其涌现能力实际上是上下文学习的结果,主要体现在简单任务和事先知道答案的情境中。大语言模型未来是否能够真正实现AGI,目前还没有定论。

那是不是大模型就不适合用户来解数学题了呢?

也并不全是。

正如刚才所说,如果用豆包手机端的“拍题答疑”,也就是RAG链路的方式,那么结果的“打开方式”就截然不同了。

我们可以先用豆包APP对着题目拍照,让它先进行识别:

图片

结果就是——全对!

图片

至于更多类型题目大模型们的表现会如何,友友们可以拿着感兴趣的题目自行测试一番了。

马斯克是怎么实现大脑植入云端的

如何评价?

从“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等评测上可以看到,豆包大模型已经稳稳进入国产第一梯队。

但随即而来的一个问题便是,过去一年多异常低调的豆包,是如何在短短一个月内就开始爆发的?

华为商城爱回收

其实早在发布之际,豆包与其它大模型厂商截然不同的路径就已经有所体现,归结其背后的逻辑就是:

只有最大的使用量,才能打磨出最好的大模型。

据了解,豆包大模型在5月15日正式发布时,其每天平均处理的token数量高达1200亿,相当于1800亿的汉字;每天生成图片的数量为3000万张。

不仅如此,豆包大模型家族还会在包括抖音、今日头条等在内的50多个场景中进行实践和验证。

因此,我们可以把豆包在大模型性能上的路数,视为用“左手使用量,右手多场景”的方式反复打磨而来。

一言蔽之,大模型好不好,用一下就知道了。

并且基于豆包大模型打造的同名产品豆包APP,已成为国内最受欢迎的AIGC类应用。

这一点上,从量子位智库所汇总的智能助手“APP下载总量”和“APP月新增下载总量”便可一目了然——

豆包,均拿下第一。

图片

图片

不仅如此,在前不久国产大模型To B市场打响价格战之际,火山引擎也是相当“壕气”让大模型进入“厘时代”,1元=1250000tokens。

因此,现在要如何评价字节跳动的大模型和应用,或许就是:

  • 多:场景多,数据多

  • 好:各路评测都能hold住

  • 省:是冲在价格战头部的选手

但也正如我们刚才所述,现在的大模型还有很大的“进化”空间。

因此对于国产大模型在未来的发展,我们还需保持持续的关注;但毋庸置疑的一点是,字节的大模型和豆包,定然是最值得期待的其中一个。


返回网站首页

本文评论
百亿级MCN产业链挖掘:立昂技术、万兴科技等有望承接新利好
  受到近期疫情影响,人们的工作与生活方式发生不小改变,这背后中国的科技互联网产业也在加速变革。近日,国盛证券发布了《短视频、监管及疫情三重叠加,MCN产业或进入爆发点》...
日期:08-21
真我gt neo 6g「4月11日真我GT Neo6 SE发布 京东“先人一步”抢先到手新机」
真我GTNeo6 SE将于4月11日14点正式发布,不少消费者在期待这款高能电竞旗舰手机。为满足消费者第一时间入手真我GT Neo6 SE的需求,京东携手realme打造“先人一步”计划,提供新品...
日期:04-09
《原神》揽金260亿后,米哈游如何布局下个时代?「米哈游新作《原神》」
声明:本文来自于微信公众号 全天候科技(ID:iawtmt),作者:胡描,授权转载发布。9月28日,开放世界二次元手游《原神》迎来了两周年纪念日。据Sensor Tower商店情报数据显示,截至上个...
日期:09-29
英国电信公司VMO2推出便携式5G SA专网产品「英国电信3」
通信世界网消息(CWW)8月2日,Virgin Media O2(VMO2)宣布成为英国第一家提供便携式商业5G独立专用网络的电信公司。新推出的产品仅比随身携带的航空包略大,其网络可供各种规模的企业...
日期:08-03
事关违规经营!中国广电已取消下属中国有线开展数据传输服务的经营许可
通信世界网消息(CWW)据中华人民共和国审计署官网消息,近日,受国务院委托,国家审计署审计长侯凯在第十四届全国人民代表大会常务委员会第七次会议上所做的《国务院关于2022年度中...
日期:01-26
抖音字节跳动合作「字节赛马:抖音图文,内卷头条?」
声明:本文来自微信公众号“财经故事荟”(ID:cjgshui),作者:王红霞,编辑:陈纪英,授权转载发布。“ 舍不得孩子套不着狼”,这话用来形容字节的最新境况,再合适不过。在近日的2022年抖...
日期:10-09
b站 亮剑「B站UP主借AI识别情绪玩法整活《亮剑》名场面播放量186万」
划重点:- B站UP主“佛辣西威”利用国产电视剧《亮剑》中“有胜阅兵”片段,制作了一支AI识别情绪的视频。- 视频在B站播放量达186万,引发网友玩梗热潮,形成“梗上加梗”的热闹场...
日期:03-13
暑假找兼职悠着点 360借条安全专家提醒四大网络兼职骗局_58同城360借条兼职
  伴随着高考结束,高考学子们也迎来丰富多彩的暑假生活,无论是准大学生,还是将走入社会的大学生,在暑假找一份兼职进行社会实践往往成为他们的重要选择之一,然而,诈骗团伙利用...
日期:10-25
华为Mate60Pro乐臻版开售 12GB+1TB 8899元_华为mate60最新官方消息
华为最新推出的Mate60Pro 乐臻版套装,仍然在市场上持续火爆,尽管已经上市两个月。这款新手机的受欢迎程度引起了广泛的讨论,以下是关于它的一些重要信息。又一家电巨头陨落华为...
日期:11-01
上海现小米汽车交付中心 小米客服回应:目前未公布门店_上海小米汽车租赁有限公司
国内媒体披露,最近有不少网友透露,经过上海小米汽车交付中心时,看到已经有车辆展示。有一位网友在经过上海松江区的九干路168号的小米汽车交付中心时,拍照并发文说,看起来基本上...
日期:01-23
支付宝2023年度报告发布,小攒青年、极简社交、万事打卡成关键词
2024年即将来临,站在2023年的年末,你会如何回忆这一年?12月27日,支付宝平台发布《2023支付宝年度发现小报告》,多巴胺经济、万事打卡、小攒青年、AI“巷战”等成十大年度关键词:...
日期:12-27
推特马斯克账号「Twitter:马斯克一方数据科学家不认可其虚假帐号数指控」
  讯 北京时间9月28日早间消息,据报道,Twitter本周表示,特斯拉首席执行官埃隆·马斯克(Elon Musk)自己的数据科学家并不认为,Twitter平台的虚假账号数量如马斯克所说,比该公司的...
日期:10-03
IPHONE 14「苹果官网资料显示iPhone 14 Plus最初曾被命名为“iPhone 14 Max”」
新发现的iPhone 14 Plus在苹果网站上被称为"iPhone 14 Max",这表明这是最初打算用于低端6.7英寸设备的名称,然后该公司在短时间内改变主意。正如荷兰博客iCreate所发现的,在该...
日期:10-02
iphone郑州富士康质量「郭明錤:因郑州富士康全球10%的iPhone生产受影响 立讯精密大涨」
10月31日 消息:天风国际分析师郭明錤通过推特发布了一些苹果 iPhone 供应链上的生产变化,涉及鸿海富士康、和硕、立讯精密等。郭明錤表示,在郑州富士康iPhone工厂进入闭环生产...
日期:11-09
新东方服务宗旨「新东方:“强服务+内容+技术”赋能智慧教育」
教育信息化推进二十年来,在国家的大力支持下实现跨越式发展,如今已从硬软件技术的迭代升级进入理念创新、技术创新、教学法创新相融合的智慧教育阶段。以智慧教育引领教育信息...
日期:05-30
蔚来二代换电站哪里生产?「蔚来护城河又深了 第四代换电站6月13日上线:最多日服务480次」
快科技6月1日消息,在2024粤港澳车展举办期间,蔚来官方宣布,首座第四代换电站和640kW全液冷超快充桩将于6月13日在广州正式上线。第四代换电站采用站顶光伏发电系统,拥有60平米的...
日期:06-01
Soul探索社交元宇宙新方向 数字藏品受Z世代好评「灵魂币soul」
Soul是国内率先提出“社交元宇宙”概念的互联网产品,此概念一出在互联网业内正式掀起了元宇宙热潮。Soul成立至今始终致力为Z世代搭建起一个可以重塑自我虚拟身份、社交资产...
日期:10-28
半个月套现4.2亿港元 王兴减持理想汽车_美团王兴投资理想汽车
【】4月4日消息,根据港交所披露的文件显示,理想汽车董事、美团联合创始人王兴在3月20日至3月30日期间多次减持理想汽车股票,共计在港股减持3.096亿港元,在美股减持1407万美元,合...
日期:10-04
“都靓读书”优质内容上线“学习强国”学习平台
  “比起《平凡的世界》,路遥的《早晨从中午开始》更令我感动。这本书是路遥在病榻上书写的,叙述了他在创作《平凡的世界》时所读过的十年苦难岁月……”   近期,知名读书...
日期:07-14
视频辅助就业力邀重庆播主入驻 “关注流”圈层文化助力多元热爱
10月14日-15日,视频直播活动在重庆成功举办,展示知识直播价值,以视频会友。10月14日,视频知识直播的代表IP《张朝阳的物理课》在重庆大学开讲,创始人、董事局主席兼首席执行官、...
日期:10-16