您的位置:首页 > 互联网

“GPT-4变傻”不只是OpenAI的苦恼,所有大模型与人类交往越久就会越蠢?

发布时间:2024-01-03 15:33:39  来源:互联网     背景:

声明:本文来自微信公众号“硅星人Pro”(ID:Si-Planet),作者:Jessica,,授权转载发布。

ChatGPT发布一年多,已经在全世界累积了超过1.8亿用户。而随着越来越多的人们开始频繁使用它,近几个月关于GPT-4在“变笨”、“变懒”的说法不绝于耳。

大家发现这个昔日大聪明在回答提问时逐渐失去了最初的理解力和准确性,时不时给出“驴唇不对马嘴”的答案,或是干脆摆烂、拒绝回答。

英伟达rtx 4090 显卡爆料

对于GPT-4降智的原因,用户们有许多自己的猜测。而最近,来自加州大学圣克鲁兹分校的一篇论文,给出了学术界的最新解释。

我们发现,在LLM训练数据创建日期之前发布的数据集上,LLM的表现出奇地好于之后的数据集。

eLLM训练数据收集日期之前和之后发布的数据集,对零样本(蓝色)和少样本(绿色)任务的准确率对比。

也就是说,大模型在它们之前“见过”的任务上表现优秀,在新任务上则相对拉垮。这更像是一种检索的模拟智能方法,回答问题全靠记,而非纯粹基于学习理解能力。

因此论文认为,许多大模型在处理早期数据时展现出的优异表现,实际上是受到了任务污染的影响。

我们知道,大语言模型之所以强大,是因为在各种零样本和少样本任务中表现出色,显示出处理复杂和多样化问题的灵活性。

而任务污染就是一种对零样本或少样本评估方法的污染,指在预训练数据中已包含了任务训练示例——你以为GPT初次回答就这么得心应手?No!其实它在训练过程中就已经“见过”这些数据了。

评估的模型与数据集

由于封闭模型不会公开训练数据,开放模型也仅提供了数据源,爬取网站去获取数据并非易事,所以想简单验证是困难的。

为了实测任务污染的范围,论文中共评估了12种不同的模型,包括5个GPT-3系列封闭模型和Fairseq MoE、Bloom、LLaMA等7个开放模型,并列出训练集创建和模型发布日期。

在数据集上则划分为两类:2021年之前和2021年之后发布的数据集。以此来对比新老数据集之间的零样本或少样本任务性能差异。

四种测量方法

基于以上样本,研究人员采用了四种方法来衡量大模型的任务污染范围。

1. 训练数据检查:直接搜索训练数据以找到任务训练示例。

发现经过微调的Llama模型Alpaca和Vicuna,在训练中加入少量任务示例后,对比原版Llama性能有所提升。

2. 任务示例提取:从现有模型中提取任务示例。

具体方法是通过提示词指令,让模型生成训练示例。由于在零样本或少样本评估中,模型本不应该接受任何任务示例训练,所以只要LLM能够根据提示生成训练示例,就是任务污染的证据。

结果发现,从GPT-3第一代davinci-001到后来的3.5-T,代表可以生成训练示例的红色X越来越多了,证明任务污染越发严重。

3. 成员身份推断:仅适用于生成任务,核心是检查模型为输入示例生成的内容是否与原始数据集完全相同。如果一致,就可以认定这个示例是LLM训练数据的成员。

因为如果在开放式生成任务中出现这种精准匹配,那模型无异于具备了预知能力,能准确复现数据集中的具体措辞,表现可以说是“天秀”了,这就强烈暗示了模型在训练时已经学习过这些内容。

结果显示在GPT-3系列和最近开源的大模型中,这种生成内容与原始数据完全相同的情况普遍存在,且污染程度随时间呈上升趋势。

4. 时间序列分析:对于已知训练数据收集时间的模型,测量其在已知发布日期的数据集上的性能,并使用时间序列证据检查污染的证据。

通过对所有数据集和LLM进行全球性的时间序列分析,发现对于在LLM发布之前收集的数据集(左侧),无论是零样本还是少样本任务中,击败多数基线的可能性都远远更大。

最终结论

在所有实验过后,论文给出如下关键结论:

  • 由于任务污染,闭源模型在零样本或少样本评估中的性能表现被夸大了,特别是那些经过人类反馈的强化学习(RLHF)或指令微调的模型。由于污染程度仍然未知,我们需要谨慎对待。

  • 在实验中,对于没有展示出污染可能性的分类任务,大模型在零样本和少样本设置里很少显示出相对多数基线在统计学意义上的显著性改进。

  • 随着时间推移,GPT-3系列模型在许多下游任务的零样本或少样本性能上的提升很可能是由于任务污染造成的。

  • 即使是开源的LLM,出于多种原因,检查训练数据的任务污染也可能是困难的。

  • 鼓励公开训练数据集,以便更容易诊断污染问题。

GPT“变笨”不孤单,所有大模型殊途同归?

读过论文后,许多网友也悲观地表示:降智没准儿是目前所有大模型的共同命运。

对于没有持续学习能力的机器学习模型来说,其权重在训练后被冻结,但输入分布却不断漂移。近两亿用户五花八门的新问题日夜不间断,如果模型不能持续适应这种变化,其性能就会逐步退化。

就比如基于大模型的编程工具,也会随着编程语言的不断更新而降级。

而持续重新训练这些模型的成本很高,人们迟早会放弃这种效率低下的方法。就目前的LLM来说,很难构建可以在不严重干扰过去知识的情况下,连续适应新知识的机器学习模型。

有网友认为:“围绕人工智能的所有炒作大多是基于这样一个假设:人工智能将会越来越好。但按照这些大型语言模型的设计方式,实现通用人工智能几乎是不可能的。在特定场景下的小众用例是这项技术的最佳使用方式。”

而持续学习,恰恰是生物神经网络的优势。由于生物网络具有强大的泛化能力,学习不同的任务可以进一步增强系统的性能,从一个任务中获得的知识有助于提升整个学习过程的效率——这种现象也称为元学习。

“从本质上讲,你解决的问题越多,就会变得越好,而大模型虽然每天被数以百万计的问题所触发,它们并不会自动地在这些任务上变得更加出色,因为它们的学习能力被冻结在了某一时刻。”

不过想来一个有些矛盾的现实是,现在的人们越来越依赖于AI生成的内容,用退化中的大模型提供的答案去解决生活中的实际问题。未来大模型爬到的数据,将会越来越多会是它自己创造的东西,而不是来自人脑。

AI用AI的产出去自我训练,最终结果又会走向何方呢?如果不着手从根本上解决数据污染和持续学习能力的问题,未来的世界会和大模型一起变笨吗?

参考资料(原文地址):https://arxiv.org/abs/2312.16337


返回网站首页

本文评论
苹果 iPhone 14 Pro 机模展示,包含紫色和深蓝色版本_iphone12pro蓝色真机
IT之家 8 月 25 日消息,在苹果 9 月 7 日发布 iPhone 14 系列产品之前,一位爆料者放出了声称是 iPhone 14 Pro 的机模,包括新的蓝色和紫色两种版本。值得注意的是,金色和紫色版...
日期:09-17
笔记本拓展坞你选对了吗?这个设计不起眼但至关重要
伴随开学季的到来,选购笔记本电脑的热潮也随之涌现。PC市场的热度上升,也带动了相关电脑周边配件的销量,拓展坞就是一个例子。amdr5m230用哪个驱动游戏帧数高在电商平台输入“...
日期:08-31
3Q大战终审:业内人士担心“好戏”并未结束(3q大战是什么时候的事)
  曾经沸腾一时的“3Q”大战终于落幕。   昨天下午,北京市第二中级人民法院宣布腾讯(腾讯控股:00700.HK)诉“360隐私保护器”侵权案的终审判决结果维持一审原判。   根...
日期:07-23
骁龙8Gen2比苹果A16贵是表象,安卓手机越买越贵幕后操控才是真_骁龙 8cx gen 2 5g
最新外媒报道揭晓了高通骁龙8 Gen 2旗舰芯片的售价,这引发了广大消费者的关注。据相关分析师透露,这款目前安卓手机阵营的旗舰芯片每颗售价达到160美元(约合人民币1137元)。这一...
日期:06-07
阿里巴巴闲鱼「1688和闲鱼成为阿里重要业务吧 年轻用户涌向电商平台」
11月2日 消息:据报道,阿里旗下的电商平台1688和闲鱼的重要性提升,最近被升级为淘天集团的一级业务。黄光裕 18个月真我GT还是neo5根据《晚点LatePost》的报道,二手业务在大环境...
日期:11-02
苹果市值蒸发掉1.5亿部iPhone「苹果市值一夜蒸发7440亿元!只因收不到“苹果税”」
中关村在线消息:2022下半年,以亚马逊、特斯拉、英伟达等企业为首的美国大型科技公司股票多次出现暴跌。今日,美国三大股指全线收跌,其中苹果(AAPL)股价再次跌幅4.69%,市值一夜蒸发...
日期:12-16
Parallels Desktop 17 虚拟机软件发布:适配运行 Win11,M1 Mac 性能大提升_macbook虚拟机parallel desktop
  8 月 10 日消息 外媒 MSPoweruser 报道,Parallels Desktop 17 for Mac 虚拟机软件已经正式发布,针对 Windows 11 和 macOS Monterey 进行了优化。IT之家获悉,有了这个版本...
日期:11-14
闲鱼推出七天无理由退货 仅针对经营性卖家_闲鱼没有七天无理由退货
10月9日 消息:二手交易也能无理由退货了?近日,闲鱼发布了关于新增《闲鱼社区七天无理由退货规范》的公示通知。公告称,为保障卖家权益,闲鱼社区新增了七天无理由退货。iphone 1...
日期:10-18
我们翻了500部短剧:总裁、归来是剧名高频词,剧情堪比看爽文
图片来源@视觉中国文|三言科技,作者|DorAemon‍‍要说近年来风口是什么,非微短剧莫属。根据德塔文数据显示,2023年上半年共上新微短剧481部,已超2022年全年水平。足见发展之迅速。...
日期:11-08
Pixel Watch可能需要一个保护套来保护手表屏幕_watch如何保护电池
再过几个小时,Pixel Watch就要正式发布了,由于曝光和泄密,我们对这款即将推出的智能手表几乎了如指掌。有一件事一直让人很关注,那就是显示屏。它看起来不错,但就像弧形显示屏一...
日期:10-09
2023年诺贝尔物理学奖公布:又一位女性获奖_2022年诺贝尔物理学奖
今年的诺贝尔奖,女性科学家爆发了。昨天的医学和生理学奖有一位女性,今天的物理学奖又有一位女性。10月3日,在瑞典首都斯德哥尔摩,瑞典皇家科学院宣布,将2023年诺贝尔物理学奖授...
日期:10-03
亏电3.9升、纯电跑200km!比亚迪驱逐舰07申报:合资中型轿车发抖_比亚迪电动四驱越野车
快科技6月15日消息,比亚迪海洋网全新中型混动轿车驱逐舰07进行了申报,该车到来后,将与比亚迪汉一道,再次对合资中型燃油轿车发起进攻,凯美瑞、雅阁、帕萨特等首当其冲。该车首发...
日期:06-15
厦门雷雨天能旅游吗「厦门暴雨雷电来袭 天空出现芭比粉闪电!专家科普」
近日,国内南方地区正遭遇暴雨天气袭击,尤其是临海城市,叠加季风气候影响,暴雨的冲击更为强烈。B站UP主影视飓风厦门市气象台8月19日16时24分将暴雨橙色预警信号升级为暴雨红色预...
日期:08-21
特斯拉大股东马斯克「特斯拉股价大跌6%!马斯克失去世界首富位置:LV老板接盘」
自从收购推特之后,马斯克就频频遭遇各种危机,不光是对于他本人和推特,还波及了特斯拉。北京时间12月13日消息,截至周一收盘,特斯拉公司股价大跌6.3%。《福布斯》富豪榜显示,特斯拉...
日期:12-13
印度荣誉「科技巨头逐鹿印度,荣耀也要分一杯羹」
如何评价印度营商环境?在知乎搜索相关话题,有网友甩出了世界银行早间年的《全球营商环境报告》,当中明确指出,直到2020年印度仍是全球最难做生意的国家之一。将范围圈定在近年外...
日期:10-11
市场份额第一的背后,华为云会议究竟做对了什么?「华为云会议是干什么的」
通信世界网消息(CWW)如今,国内云视频会议赛道进入了一个新阶段,在众多选手中,目前领跑的是华为云会议。近日IDC发布的《2022下半年中国视频会议市场研究报告》对我国视频会议市场...
日期:06-28
dacum模型「大模型时代最大的机会在于应用层-李彦宏」
3月16日消息,百度今日正式推出新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏表示,“我认为生成式AI,将催生新产品、新业态,会有很多创业和投...
日期:10-06
跨境电商有望成为外贸增长强大引擎_跨境电商为什么会成为外贸新引擎
  转自:经济参考报 ; 玩客云 播放器  “跨境电商作为新工业革命条件下一种新型贸易方式,有可能成为助推未来30年发展的强大引擎。”中国国际经济交流中心首席研究员张...
日期:09-06
苹果将于下周召开发布会,M3芯片或登场,iPhone15上市一个月跌价明显
出品 | 科技作者 | 张雅婷10月25日凌晨,苹果宣布将于北京时间10月31日早上8点举行特别活动,这也是苹果秋季第二次新品发布会。此前在9月13日凌晨的发布会上,苹果发布了新一代手...
日期:10-25
2012电商服务规模预计125亿 电商服务投资热潮涌起_电商服务业发展
前日,淘宝网公布2011中国网购服务市场发展报告。数据显示,2010年中国电商服务市场规模额20亿,2011年交易额达50亿,同比增长了1.5倍,预计2012年服务市场规模将达到125亿,目前有1.3...
日期:07-24