「科技点亮生活智能改变世界」

大模型强崩溃！Meta新作：合成数据有剧毒，1%即成LLM杀手

发布时间：2024-10-14 18:11:45 来源：互联网背景：

声明:本文来自于微信公众号新智元，作者:新智元，授权转载发布。

【新智元导读】1%合成数据，就能让模型瞬间崩溃!来自Meta、NYU等机构团队证实，微量合成数据便让LLM弱不可堪。甚至，参数规模越大，模型崩溃越严重。

百度app月活达5.58亿

1%的合成数据，就让LLM完全崩溃了?

7月，登上Nature封面一篇论文证实，用合成数据训练模型就相当于近亲繁殖，9次迭代后就会让模型原地崩溃。

论文地址:https://www.nature.com/articles/s41586-024-07566-y

然而，许多大佬都不同意这篇文章的方法和结论。

比如，Scale AI的CEO Alexandr Wang就很看好合成数据的前景，英伟达发布的开源模型Nemotron-4340B甚至使用了98%的合成数据。

最近，Meta、纽约大学、UCLA机构发表的最新论文，再一次动摇了这些大佬们的结论。

论文地址:https://arxiv.org/abs/2410.04840

他们发现，即使合成数据仅仅占到总数据集的最小部分，甚至是1%的比例，仍然可能导致模型崩溃。

甚至，ChatGPT和Llama这种较大的模型，还可能放大这种崩溃现象。

强模型崩溃，如何发生的?

随着越来越多的合成数据出现在训练集中，一种新的现象应运而生:模型崩溃。

所谓模型崩溃，是指随着时间的推移，LLM或大型图像生成器在其前几代生成的数据上进行递归训练，导致性能下降，直至模型完全丧失能力的情况。

围绕着这个问题，AI学界和业界的大佬依旧莫衷一是，尚未达成一致的结论。

而合成数据究竟会在多大比例、多大程度上导致模型崩溃，直接影响着我们在未来如何应用这项技术。

从直觉上理解，合成数据导致模型崩溃的底层逻辑，是由于模型开始对合成数据中的模式进行过拟合，而这些模式可能无法代表现实世界数据的丰富性或可变性。

如果进行连续的迭代训练，这种反馈循环会导致模型强化合成数据中存在的错误、偏差或过度简化，因而损害了对现实世界的准确表示能力和泛化能力。

总体而言，这篇文章旨在回答以下两个重要问题:

Q1:模型崩溃是不可避免的，还是可以通过策略性地混合真实数据和合成数据来解决?

Q2:较大的模型比较小的模型更容易崩溃吗?

针对这两个问题，论文以经典线性设置中的回归问题为例进行了理论分析，之后在玩具设置（MINIST数据集+迷你模型）和更接近真实场景的GPT-2模型上运行了实验。

理论设置

考虑从真实数据分布P_1采样得到的n_1个独立同分布样本

声明:本文来自于微信公众号新播场（ID:New_bc），作者:阿力古，授权转载发布。直播行业有了“跨服联赛”。近日，老牌直播平台陌陌直播和YY直播，携手打造了全网首届跨企业、跨平台直播...