您的位置:首页 > 互联网

斯坦福大学实锤GPT-4变笨了,OpenAI最新回应:确实存在“智力下降”「斯坦福dad」

发布时间:2023-07-21 19:21:06  来源:互联网     背景:

声明:本文来自微信公众号“大数据文摘”(ID:BigDataDigest),作者:文摘菌,授权转载发布。

大模型天花板GPT-4,它是不是……变笨了?

之前有不少用户提出质疑,并晒出了不少证据。对此,OpenAI7月14日澄清:“我们没有把GPT4弄笨。相反的,我们的每个新版本,都让GPT4比以前更聪明了。”

斯坦福大学报告

Peter Welinder是OpenAI的产品产品VP

但为了验证OpenAI的说法,斯坦福大学和加利福尼亚大学伯克利分校的三位研究员调查了3月至6月期间 ChatGPT 性能的变化。

斯坦福ee

论文地址: https://arxiv.org/abs/2307.09009

评估的对象包括GPT-3.5和 GPT-4两个大模型,并在四个任务上进行测试:数学问题、回答敏感/危险问题、代码生成以及视觉推理。

调查结论是:GPT-4性能确实变差了。

例如,在数学问题上,2023年3月版本的GPT-4能够以97.6%的准确率识别质数,而2023年6月版本的GPT-4在这个任务上的表现却很糟糕(准确率只有2.4%),并且忽略了连贯的思考Prompt。

斯坦福mpp

对如此科学实验下的证据,OpenAI在博客“Function calling and other API updates”中更新回应到:确实在某些任务上的性能变差了。

We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse.

我们会根据大量的评价指标来确定是否发布新的模型,虽然新模型大多数指标都有所改进,但可能在一些任务上模型性能会变差。

his is why we allow API users to pin the model version. For example, you can use gpt-4-0314instead of the generic gpt-4, which points to the latest model version.

这就是为什么我们允许API用户使用固定版本模型的原因。例如,用户可以选择使用 gpt-4-0314这个版本,而不是使用最新的 gpt-4版本。

Each individually pinned model is stable, meaning that we won’t make changes thatimpactthe outputs。

另外,OpenAI不会对固定版本的模型进行任何可能影响其输出结果的更改。

那么具体在哪些任务中GPT-4变差了呢?让我们一起来看论文细节。

01实验过程与其他结论

.

斯坦福大学hci

老虎吃掉狮子

论文中,作者针对每种任务都设定了主要的性能指标,例如对于解决数学问题的任务,主要的性能指标是准确性;对于回答敏感问题的任务,主要的性能指标是回答率。此外,对于所有任务,他们都设定了两个通用的补充指标,即冗长度(verbosity)和重叠度(overlap)。

斯坦福phd

如前所述,在数学问题测试中,作者们研究了GPT-4和GPT-3.5在解决质数判断问题上的“时间表现”。实验方法是采用思维链(Chain-of-Thought)方法对数据集中的500个问题进行回答。

结果显示:两个模型表现出明显的前后不一致,GPT-4的准确率从3月的97.6%下降到6月的2.4%,同时,GPT-3.5的准确率从7.4%提高到了86.8%。此外,GPT-4的回答更简洁,GPT-3.5的回答则更长。

这种差异的原因可能与思维链效应有关。例如,3月的GPT-4能够很好地遵循思维链条步骤判断17077是否为质数,但6月的版本则直接给出了"No"。而GPT-3.5在3月倾向于先给出"No",然后推理,但6月的版本修复了这个问题,正确地先写出推理步骤,然后给出正确答案"Yes"。这表明,由于模型的改变,即使是同样的Prompt方法,如思维链条,也可能导致性能大相径庭。

在敏感问题测试中,论文作者创建了一个包含100个不应由大模型直接回答的敏感问题的数据集,并手动标记了所有回复。

斯坦福大学开发的pi

结果发现,GPT-4在3到6月间直接回答敏感问题的比例从21.0%降到5.0%,而GPT-3.5的比例从2.0%上升到8.0%,可能因GPT-4增强了安全性,而GPT-3.5没有相应的操作。

荣耀p60和小米k50哪个好

同时,GPT-4回复的文本长度也从600多字降到约140字。

另一方面,大模型“越狱”对服务的安全性构成了主要威胁。作者使用了一种叫做AIM(always intelligent and Machiavellian)的攻击,该攻击通过构造虚构故事,让大模型表现得像一个无过滤无道德的聊天机器人。

结果显示,当遭受AIM攻击时,GPT-4和GPT-3.5的回答率都大幅上升。但是,GPT-4的防御力在更新后显著增强,从3月的78%的回答率降到6月的31.0%,而GPT-3.5的回答率变化较小,仅降低了4%。这说明GPT-4对越狱攻击的防御力较GPT-3.5更强。

斯坦福mpp

在代码生成能力测试中,作者创建了一个新的代码生成数据集,包括最新的50个LeetCode“easy”问题。结果显示:从3月到6月,“可直接执行”的生成数量降低。

如上图所示,3月份GPT-4有超过50%的生成结果是“可直接执行”的,但到了6月份只剩10%。GPT-3.5的情况也差不多,两种模型的生成结果冗余性也略有增加。

对此,斯坦福的研究员猜测原因可能是:生成的代码中添加了额外的非代码文本。

斯坦福大学报告

如上图所示,GPT-4在3月份和6月份生成的代码是有区别的。例如6月版在代码片段的前后添加了"python"和’’’,这可能是用来标示代码块的,同时还生成了更多的注释。

在视觉推理测试中,研究人员采用了ARC数据集进行评估,该数据集中的任务是根据几个例子,要求输入网格创建输出网格。

斯坦福ee

图注:视觉推理的整体表现。从三月版到六月版,GPT-4和 GPT-3.5的整体表现都有大约2% 的提升。生成长度大致保持不变。

GPT-4和 GPT-3.5的性能提升都很小。但是,它们的3月版和6月版在90% 的视觉谜题查询上的生成结果都一样。这些服务的整体性能也很低:GPT-4准确率为27.4%、GPT-3.5准确率为12.2%。

02专家推测:或许与 MoE 技术有关

对于GPT-4变笨,之前学术界有个观点是,后来的RLHF训练虽然让GPT-4更与人类对齐,也就更听从人类指示和符合人类价值观,但让也让它自身的推理等能力变差。

换句话说,人类的强硬“教化”将GPT-4的脑叶白质切除了。

斯坦福dad

也有专家认为是GPT变笨和它的「混合专家模型」(Mixture of Experts,MOE)的构架有关。

MoE 技术是在神经网络领域发展起来的一种集成学习技术,也是目前训练万亿参数量级模型的关键技术——由于现阶段模型规模越来越大,导致训练的开销也日益增长,而 MoE 技术可以动态激活部分神经网络,从而实现在不增加计算量的前提下大幅度增加模型参数量。

具体来说,MoE 会将预测建模任务分解为若干子任务,在每个子任务上训练一个专家模型(Expert Model),并开发一个门控模型(Gating Model),该模型可根据要预测的输入来学习信任哪个专家,并组合预测结果。

MoE 技术引用到GPT-4时, GPT-4中这些小型专家模型会针对不同的任务和主题领域进行训练,例如可以有针对生物、物理、化学等方面的小型GPT-4专家模型,那么当用户向 GPT-4提出问题时,新系统就会知道要把这个问题发送给哪个专家模型。另外,为了以防万一,新系统可能会向两个或更多的专家模型发送查询,然后将结果混在一起。

对于这个做法,业界专家形容是“忒修斯之船”,即随着时间的推移,OpenAI 会把 GPT-4的各个部分替换掉:“OpenAI 正在将 GPT-4变成一支小型舰队。”

注:忒修斯之船,是一个古希腊思想实验,探讨一个物体在其所有组成部分被完全更换后,是否仍保持其原始身份的哲学悖论。即一艘船替换完所有组件后,这艘船还是原来的吗?

因此,GPT-4变笨很可能就与 MoE 这种训练方式有关:“当用户测试 GPT-4时,我们会问很多不同的问题,而规模较小的 GPT-4专家模型不会做得那么好,但它正在收集我们的数据,它会改进和学习。”斯坦福大学兼职教师Sharon Zhou介绍到。

斯坦福phd

除了专业研究团队之外,关心AI的网友们也在用自己的办法追踪着AI能力的变化。例如有人每天让GPT-4画一次独角兽,并在网站上公开记录。如上所示,今天的形状。

斯坦福ee

实际上,从4月14日开始,直到现在也还没看出来个独角兽的大致形态。

参考链接:

https://gpt-unicorn.adamkdean.co.uk/

https://mp.weixin.qq.com/s/K8W5Wy95YsDo8gfFyIUmvA

https://mp.weixin.qq.com/s/BpOVKmFskrTKROGy16M5bg

https://openai.com/blog/function-calling-and-other-api-updates


返回网站首页

本文评论
携程租车和腾讯出行服务正式达成合作「租车行如何与携程合作」
9 月 28 日消息,近日,携程租车和腾讯出行服务正式达成合作,携程租车正式入驻腾讯出行服务,为腾讯出行服务的用户提供一站式在线预订国内租车服务。自 9 月 20 日起,用户通过“微...
日期:09-30
卷轴屏 手机「小米卷轴屏手机外观专利获授权:手机变成一根棒」
北京小米移动软件有限公司近日成功获授权的“手机”外观专利(授权公告号:CN307959735S)展示了一款独特的设计概念,将手机制成柱状,在需要时可以将屏幕从中抽出,柱状结构中还包含弹...
日期:04-12
最新款的笔记本电脑的大小字母怎么切换「最新款的笔记本电脑」
随着科技的发展和人们对便携性的需求不断增加,笔记本电脑已经成为人们生活和工作中不可或缺的一部分。随着市场需求的不断增加,各大电脑品牌也在不断推出一款款新款笔记本电脑...
日期:05-29
OS X Lion发现可被随意更改用户密码的漏洞
  据外国媒体报导,一家专注于计算机安全领域的博客Defense in Depth日前在OS X Lion上发现了一个安全漏洞,一名黑客称“虽然没有root权限的用户不能够直接访问shadow文件,但...
日期:07-23
《暗黑4》实战36款显卡:10年前的画质水平 4K 270帧 无压力
快科技6月3日消息,暴雪2023年最受期待的大作《暗黑4》已经有土豪玩家率先体验,大部分人还要到6月6日才能进入游戏,这代的评价不错,MC均分88。《暗黑4》需要什么样的游戏平台才能...
日期:06-03
钟薛高发布Sa'Saa系列冰棍新品,称由AI打造,定价3.5元「钟薛高66元的雪糕长什么样」
3月29日消息,钟薛高年度新品发布会上,推出了由AI主导的新产品系列“Sa'Saa”和“钟薛高的糕”新款甜品---“旦生”。贾跃亭债务处理小组微博据品牌创始人林盛介绍,“Sa'Saa”系...
日期:03-29
联想集团非PC占比已达近40%:软硬双引擎持续高增长_联想pc市场份额
2023/5/24 13:18 联想集团非PC占比已达近40%:软硬双引擎持续高增长   2023年5月24日——全球数字经济领导企业联想集团(HKSE:992)(ADR:LNVGY)公布截至2023年3月31日的2022/23...
日期:05-26
纪录片《千年陕菜》第二季今日收官!采用8K全流程制作看得_中央二套纪录片千年陕菜
纪录片《千年陕菜》官方消息,第二季于今晚正式收官,在CCTV 2播出第8集,随后晚8点在腾讯视频、爱奇艺、优酷等平台同步上线。tcl手机业务发展据了解,《千年陕菜第二季》是由西影...
日期:01-29
人民日报数字传播联合新媒体大号卡娃微卡掀起爱国热潮
  “我和我的祖国,一刻也不能分割......”黄晓明、李易峰、李现的歌声,杨幂的大拇指速写,迪丽热巴的双手比心,王一博的滑板ollie……这个国庆节,不少粉丝发现,自己喜爱的偶像,在...
日期:03-04
官宣!国产大飞机C919正式拿证:内部设计公开「中国自主研发的飞机c919」
根据央视、中国商飞的官方消息,中国民航局已经正式向中国商飞公司颁发了国产大飞机C919的型号合格证,为其交付并投入商业运营打开了最有决定性的绿灯!同时,C919项目团队代表也接...
日期:10-03
3699元起!荣耀Magic5系列手机全系降价300元_荣耀magic5g
荣耀 Magic5 系列手机正在电商平台参与活动促销,全系降价 300 元并支持 24 期免息分期。活动时间为7月4日至5日,购买手机还可获赠 Earbuds X3 TWS 耳机(数量有限)。荣耀 Magic5...
日期:07-05
2021第二季度全球智能手机出货量前三「超高端智能手机占 2022 年第二季度智能手机总收入的一半」
10月9日消息:根据Strategy Analytics发布的数据,超高端智能手机批发价在600美元及以上,占2022年Q2智能手机总收入的一半,略低于前两个季度。挖矿得比特币新氧医美 金星除了100-...
日期:10-25
微软:Win11 预览体验成员现可直接从 Xbox 手柄栏启动云游戏「xbox11月10号新手柄」
IT之家 9 月 1 日消息,微软现宣布,Windows 预览体验成员现在可以直接从Xbox 手柄栏(Xbox Controller Bar)启动云流媒体游戏,并放出了一段操作演示视频。qq空间关闭花藤亚马逊将首...
日期:09-18
雷神山抗疫护士_雷神山战疫日记:MAXHUB见证医护人员的抗疫点滴
  4月5日晚,记者从武汉雷神山医院了解到,随着一个个病区的清零和关闭,全医院目前仅剩2个病区开放,还有47名患者接受救治。此外,各地驰援雷神山医院医疗队伍也已经陆续有序撤离...
日期:12-12
开放专业技术服务 腾讯助力打造“央视频”5G新媒体平台(腾讯媒体开放平台首页)
  中央广播电视总台“央视频”5G新媒体平台近日上线。这是我国首个国家级5G新媒体平台,标志着中央广播电视总台媒体融合迈出了关键性步伐。“央视频”基于“5G+4K/8K+AI”...
日期:02-06
马斯克:特斯拉或年产50万辆_马斯克:特斯拉累计生产电动车300万辆 上海厂突破100万辆
华硕笔记本oled屏长安UNI-KTV快手课程专区   讯 北京时间8月15日早间消息,据报道,特斯拉CEO埃隆·马斯克(Elon Musk)在Twitter上发文称,特斯拉诞生至今,累计生产了300万辆电动车...
日期:08-17
华为荣耀立方ws860s「华为荣耀立方」
是华为旗下的智能家居生态品牌,主要推出智能音箱、智能门锁、智能路由器、智能电视等产品。智能音箱的智能音箱是家庭娱乐的好伴侣,具有Hi-Fi音质和7声道立体声增强技术,能让用...
日期:05-30
卫星,未来太空数据的「地球实时卫星图像应用」
想让太空数据服务普通人,需要给卫星装上「新大脑」。作者 | Founder Park俄乌战争中,SpaceX 的星链突然成为了大众的关注点。在战争开始后,马斯克迅速为乌克兰开启了星链服务,很...
日期:09-19
揭秘长飞G.654.E光纤数字化生产车间_长飞光纤公司现状
通信世界网消息(CWW)随着数字经济的快速发展,算力成为了数字经济中不可或缺的一部分。中国信通院数据显示,预计2025年中国数字经济规模将达到60万亿元人民币。而算力作为数字经...
日期:05-26
马来西亚用谷歌吗「马来西亚争取微软谷歌投资 力求成数据中心枢纽」
据报道,马来西亚贸易部长Zafrul Abdul Aziz表示,该国计划争取引进科技巨头微软和谷歌的投资,以促使马来西亚成为一个数据中心枢纽。今年马来西亚已成功吸引特斯拉和亚马逊网络...
日期:06-17