您的位置:首页 > 互联网

这是GPT-4变笨的新解释

发布时间:2024-01-02 23:51:35  来源:互联网     背景:

声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

变笨的本质是知识没进脑子。

自发布以来,曾被认为是世界上最强大的 GPT-4也经历了多场信任危机。

如果说今年早些时候那次间歇式降智与 OpenAI 重新设计 GPT-4架构有关,前段时间的变懒传闻就更搞笑了,有人测出只要告诉 GPT-4现在是寒假,它就会变得懒懒散散,仿佛进入了一种冬眠状态。

拼多多的裂变玩法

大模型变懒、变笨,具体是指模型在新任务上的零样本性能变差。尽管上述原因听起来很有趣,但问题到底怎么解决呢?

在最近的一篇论文中,加州大学圣克鲁斯分校研究者的新发现或可解释 GPT-4性能下降的深层原因:

我们发现,在训练数据创建日期之前发布的数据集上,LLM 的表现出奇地好于之后发布的数据集。

它们在见过的任务上表现出色,而在新任务上则表现糟糕。这意味着,LLM 只是基于近似检索的模仿智能方法,主要是记忆东西,而没有任何程度的理解。

说白了,就是 LLM 的泛化能力没有说的那么强—— 基础不扎实,实战总有出纰漏的时候。

造成这种结果的一大原因是任务污染,这是数据污染的其中一种形式。我们以前熟知的数据污染是测试数据污染,即在预训练数据中包含测试数据示例和标签。而任务污染是在预训练数据中加入任务训练示例,使零样本或少样本方法中的评估不再真实有效。

研究者在论文中首次对数据污染问题进行了系统分析:

论文链接:https://arxiv.org/pdf/2312.16337.pdf

看完论文,有人悲观地表示:

这是所有不具备持续学习能力的机器学习(ML)模型的命运,即 ML 模型权重在训练后会被冻结,但输入分布会不断变化,如果模型不能持续适应这种变化,就会慢慢退化。

这意味着,随着编程语言的不断更新,基于 LLM 的编码工具也会退化。这就是为什么你不必过分依赖这种脆弱工具的原因之一。

不断重新训练这些模型的成本很高,迟早有人会放弃这些低效的方法。

目前还没有任何 ML 模型能够可靠地持续适应不断变化的输入分布,而不会对之前的编码任务造成严重干扰或性能损失。

而这正是生物神经网络所擅长的领域之一。由于生物神经网具有强大的泛化能力,学习不同的任务可以进一步提高系统的性能,因为从一项任务中获得的知识有助于改善整个学习过程本身,这就是所谓的元学习。

任务污染的问题有多严重?我们一起来看下论文内容。

模型和数据集

实验所使用的模型有12个(如表1所示),其中5个是专有的 GPT-3系列模型,7个是可免费获取权重的开放模型。

数据集分为两类:2021年1月1日之前或之后发布的数据集,研究者使用这种划分方法来分析旧数据集与新数据集之间的零样本或少样本性能差异,并对所有 LLM 采用相同的划分方法。表1列出了每个模型训练数据的创建时间,表2列出了每个数据集的发布日期。

关闭奔驰导航提示音

上述做法的考虑是,零样本和少样本评估涉及模型对其在训练期间从未见过或仅见过几次的任务进行预测,其关键前提是模型事先没有接触过要完成的特定任务,从而确保对其学习能力进行公平的评估。然而,受污染的模型会给人一种未接触或仅接触过几次的能力的假象,因为它们在预训练期间已经接受过任务示例的训练。在按时间顺序排列的数据集中,检测这种不一致性会相对容易一些,因为任何重叠或异常都会很明显。

测量方法

研究者采用了四种方法来测量任务污染:

  • 训练数据检查:在训练数据中搜索任务训练示例。

  • 任务示例提取:从现有模型中提取任务示例。只有经过指令调优的模型才能进行提取,这种分析也可用于训练数据或测试数据的提取。注意,为了检测任务污染,提取的任务示例不必与现有的训练数据示例完全匹配。任何演示任务的示例都表明零样本学习和少样本学习可能存在污染。

  • 成员推理:此方法仅适用于生成任务。检查输入实例的模型生成内容是否与原始数据集完全相同。如果完全匹配,就可以推断它是 LLM 训练数据中的一员。这与任务示例提取不同,因为生成的输出会被检查是否完全匹配。开放式生成任务的精确匹配强烈表明模型在训练过程中见过这些示例,除非模型通灵,知道数据中使用的确切措辞。(注意,这只能用于生成任务。)

  • 时序分析:对于在已知时间范围内收集训练数据的模型集,在已知发布日期的数据集上测量其性能,并使用时序证据检查污染证据。

  • 前三种方法精度高,但召回率低。如果能在任务的训练数据中找到数据,那么就能确定模型曾见过示例。但由于数据格式的变化、用于定义任务的关键字的变化以及数据集的大小,使用前三种方法找不到污染证据并不能证明没有污染。

    第四种方法,按时间顺序分析的召回率高,但精确度低。如果由于任务污染而导致性能较高,那么按时间顺序分析就有很大机会发现它。但随着时间的推移,其他因素也可能导致性能提高,因此精确度较低。

    因此,研究者采用了所有四种方法来检测任务污染,发现了在某些模型和数据集组合中存在任务污染的有力证据。

    他们首先对所有测试过的模型和数据集进行时序分析,因为它最有可能发现可能的污染;然后使用训练数据检查和任务示例提取寻找任务污染的进一步证据;接下来观察了 LLM 在无污染任务中的性能,最后使用成员推理攻击进行额外分析。

    重点结论如下:

    1、研究者对每个模型在其训练数据在互联网上抓取之前创建的数据集和之后创建的数据集进行了分析。结果发现,对于在收集 LLM 训练数据之前创建的数据集,其性能高于大多数基线的几率明显更高(图1)。

    2、研究者进行了训练数据检查和任务示例提取,以查找可能存在的任务污染。结果发现,对于不可能存在任务污染的分类任务,在一系列任务中,模型很少比简单多数基线有统计意义上的显著提高,无论是零样本还是少样本(图2)。

    研究者也检查了 GPT-3系列和开放 LLM 的平均表现随时间的变化,如图3:

    3、作为案例研究,研究者还尝试对分析中的所有模型进行语义解析任务的成员推理攻击,发现在最终任务中,提取实例的数量与模型的准确性之间存在很强的相关性(R=.88)(图6)。这有力地证明了在这一任务中零样本性能的提高是由于任务污染造成的。

    4、研究者还还仔细研究了 GPT-3系列模型,发现可以从 GPT-3模型中提取训练示例,而且从 davinci 到 GPT-3.5-turbo 的每个版本中,可提取的训练示例数量都在增加,这与 GPT-3模型在该任务上零样本性能的提高密切相关(图2)。这有力地证明了从 davinci 到 GPT-3.5-turbo 的 GPT-3模型在这些任务上的性能提高是由于任务污染造成的。

    [求职] 找一份家政工作

    更多研究细节,可参考原论文。


    返回网站首页

    本文评论
    iPhone12 翻车「iPhone 14再翻车!车祸检测屡次误报」
    今年新发布的iPhone 14有一个亮眼功能是结合iOS 16系统增加的车祸监控的功能。此前的新闻中,有车主驾车撞树触发了车祸检测,iPhone 14也表现优秀,不过从新的消息来看,iPhone 14...
    日期:10-23
    微念全资入股山外山文化公司  后者成立于2021年
    2月9日 消息:近日,企查查APP显示,杭州山外山文化发展有限公司发生了工商变更,股东由周秋群、章静变更为杭州微念品牌管理有限公司,持股比例为100%。据了解,该公司成立于2021年6月...
    日期:02-09
    以太坊“大合并”使得区块链能耗与加密代币价格双双暴跌「以太坊 货币」
    随着以太坊主区块链完成从 PoW 向 PoS 模式的转型合并,网络能源成本也迎来了大幅下降。与此同时,ETH 的币价也迎来了暴跌。作为全球第二大加密代币,以太坊并未在向 2.0 版本大...
    日期:09-18
    手机取消5G开关,强制用户使用5G,5G还有多少遮羞布?_5g手机关掉5g网络
    有网友发现手机升级操作系统之后,5G开关不见了,这意味着不仅新手机强制用户使用5G,连用户手里的手机也被强制使用5G,为何运营商和手机企业要做出如此行为?容声新品冰箱中国发展5G...
    日期:11-10
    特斯拉降价到20万出头 网友忍不住要下单 宝马奔驰大众:我们不跟
    再降价我就下单了”没办法,马斯克给得太多了”好事啊,现在国产电动车价格上天了”,一些网友在社交平台评论道。2023年开年不久,特斯拉就在全球多个市场幅下调所有车型售价。以中...
    日期:02-04
    从小鹏 P7 事故分析,看智能驾驶瓶颈在哪?_小鹏p7自动驾驶安全吗
    8 月 10 日,宁波高架发生一起小鹏 P7 追尾致人死亡的事故。   发生事故的原因主要有两点,一是被撞车辆是静止的。二是被撞人员站在车后。离车很近的地方是水泥护栏,还有一个...
    日期:08-16
    国家算力(贵州)主枢纽中心项目主算力基地迎来验收_国家算力网
    通信世界网消息(CWW)近日,据贵州日报消息,当地龙山工业园区全国一体化算力网络国家(贵州)主枢纽中心主算力基地,在本月完成验收后将开始运营。梳理贵州算力基础设施建设可以发现,202...
    日期:07-13
    直击轻薄折叠痛点:OPPO Find N3掀起移动效率二次革命_oppo新出折叠
    直击轻薄折叠痛点:OPPO Find N3掀起移动效率二次革命 通信产业网|2023-10-19 16:31:26作者:党博文来源:通信产业网【通信产业网讯】(记者 党博文)10月19日,OPPO正式发布全新一代...
    日期:10-26
    iQOO 12全系支持UFCS融合快充,Pro版无缘200W功率_iqoopro支持的所有快充协议
    根据最新消息,iQOO 12系列手机的快充技术依然支持UFCS融合快充。然而,据博主完美编排数码透露,iQOO 12 Pro将不会配备200W的快充技术。2020年智能音响出货量据了解,iQOO 12和iQo...
    日期:10-19
    贝佐斯结婚「贝佐斯订婚了 给未婚妻送了一个1700万的大钻戒」
    凤凰网科技讯 北京时间5月23日消息,根据多家媒体报道,电商巨头亚马逊公司创始人杰夫贝佐斯(Jeff Bezos)与其女友劳伦桑切斯(Lauren Sanchez)已经订婚了。贝佐斯和女友最近正乘坐...
    日期:05-23
    比亚迪海豹DM-i上市发布会「比亚迪 海豹 海狮」
    从官方渠道获悉,比亚迪海豹DM-i将于9月6号正式上市。此前新车在成都车展开启预售,共推出6款车型,预售价17.68万-24.68万元。新车定位新一代主流中型轿车,基于全新DM-i超级混动中...
    日期:09-06
    小米官方解答14 Pro为何采用钛金属:又轻又强_小米pro14开箱
    小米14 Pro钛金属特别版备受瞩目。小米与苹果一样,都对钛金属有所关注,但不同于iPhone 15 Pro采用的钛铝合金,小米选择了纯度高达99%的TA-2钛金属,这使得整个制造过程变得复杂且...
    日期:11-09
    早教中心闭店退费制度_知名早教机构一夜之间关闭7家门店,家长上万元课时费退费无门
    红星资本局原创   记者|俞瑶 强亚铣   责编|邓旆光 编辑 王禾   近日,知名儿童早教连锁品牌“金宝贝”被曝出重庆7家门店一夜之间全部关店的消息。   8月14日,重庆家...
    日期:08-16
    6家GPU被曝漏洞,用户名密码被像素级窃取,N卡A卡I卡高通苹果ARM都没躲过
    声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:梦晨,授权转载发布。万万没想到,这年头GPU还能泄露密码了。主流6家公司的产品都中招,从英伟达英特尔AMD,到高通苹果ARM,手机电脑...
    日期:09-28
    我喝速溶咖啡,成了鄙视链最底层「喝速溶咖啡的利弊」
    声明:本文来自于微信公众号“价值星球Planet”(ID:ValuePlanet),作者:唐飞,授权转载发布。最近,咖啡爱好者Jessica又囤了一批咖啡,区别于囤咖啡豆、囤咖啡粉的消费者,Jessica囤的都是...
    日期:04-15
    NVIDIA市值正式突破1万亿美元!等于八个Intel、五个AMD
    受火爆的AI驱动,NVIDIA最近春风得意,财报远超预期,股价也一路飙升,直奔1万亿美元而去。白云区公安网美国当地时间5月30日,美股开盘后,NVIDIA股价继续一路走高,至截稿时已经突破410...
    日期:05-31
    小米13什么时候出「影像旗舰要来了!小米13 Ultra官宣定档:4月18日发布」
    小米宣布将于4月18日19:00召开小米13 Ultra发布会,这是小米与徕卡合作推出的第二款超大杯机型。该机影像方面是最大的亮点,主打全焦段四摄方案,其中包括可变光圈技术和前所未见...
    日期:04-12
    Google垄断案要有结果了: 270亿美元罚款在等待「美国司法部和八个州起诉谷歌(GOOG.US,GOOGL.US) 要求拆分广告技术业务」
    智通财经APP获悉,美国司法部和八个州起诉了谷歌(GOOG.US,GOOGL.US),要求拆分这家搜索巨头的广告技术业务,因为该公司涉嫌非法垄断数字广告市场。司法部在提交给弗吉尼亚州联邦法...
    日期:01-25
    观点丨浪潮信息彭震:加速智算系统创新,切实解决大模型算力难题
    【网易科技11月7日报道】目前从事大模型研发的公司和团队,普遍面临“买不起、建不了、算不好”的困局。物联网技术应用是浪潮信息董事长彭震表示,为解决这一困境,应大力发展普...
    日期:11-07
    开启次时代游戏新视界,三星Neo QLED 8K电视圈粉电竞人
      随着5G网络的逐渐推进,网络传输速率将得到质的提升,未来也将迎来游戏的新元年。在新时代下,我们新生代玩家对游戏的需求越来越多,同时对游戏体验感的要求也越来越高,随着主...
    日期:11-04