您的位置:首页 > 互联网

基于ai的生成器「研究人员警告:用AI生成的内容训练AI,可能会出现“模型崩溃”」

发布时间:2023-06-14 16:48:06  来源:互联网     背景:

6月14日 消息:随着越来越多的人使用 AI 来制作和发布内容,一个明显的问题出现了:当 AI 生成的内容在互联网上激增并且 AI 模型开始使用AI生成的内容进行训练,会发生什么?

来自英国和加拿大的一组研究人员已经研究了这个问题,并且最近在开放获取期刊 arXiv 上发表了一篇相关论文。他们的发现令当前的生成式 AI 技术及其未来令人担忧:“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”

研究人员专门研究了文本到文本和图像到图像 AI 生成模型的概率分布,得出结论:“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程,随着时间的推移,模型会忘记真正的底层数据分布……这个过程是不可避免的,即使对于具有近乎理想的长期学习条件的情况也是如此。”

ai生成绘画

“随着时间的推移,生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实,我们惊讶地观察到模型崩溃发生的速度有多快:模型可以迅速忘记他们最初从中学习的大部分原始数据。”该论文的主要作者之一 Ilia Shumailov解释道。

换句话说:当 AI 训练模型接触到更多 AI 生成的数据时,它的性能会随着时间的推移而变差,在其生成的响应和内容中产生更多错误,并在其响应中产生更少的非错误多样性。

“模型崩溃”是如何发生的

本质上,当 AI 模型生成的数据最终污染了后续模型的训练集时,就会发生模型崩溃。

Shumailov 通过一个假设场景说明了这个问题,其中机器学习模型在包含100只猫的图片的数据集上进行训练——其中10只猫的皮毛是蓝色的,90只猫的皮毛是黄色的。该模型了解到黄猫更普遍,被要求生成新数据时返回一些绿猫结果。随着时间的推移,蓝色毛皮的原始特征会在连续的训练周期中逐渐消失,从蓝色变成绿色,最后变成黄色。这种渐进的扭曲和少数数据特征的最终丢失就是模型崩溃。为防止这种情况,重要的是要确保少数群体在数据集中的公平代表性,无论是在数量上还是在对独特特征的准确描述方面。

AI 生成数据的这种“污染”导致模型对现实产生了扭曲的感知。即使研究人员训练模型不要产生过多的重复响应,他们发现模型崩溃仍然会发生,因为模型会开始编造错误的响应以避免过于频繁地重复数据。

华为watch 2018esim测评

“还有许多其他方面会导致更严重的影响,例如基于性别、种族或其他敏感属性的歧视,”Shumailov 说,特别是如果生成式人工智能随着时间的推移学会在其反应中产生一个种族,而“忘记”他人存在。

重要的是要注意,这种现象不同于“灾难性遗忘”,模型会丢失以前学到的信息。相比之下,模型崩溃涉及模型根据他们强化的信念误解现实。

这篇论文背后的研究人员发现,即使10% 的原始人类创作数据被用来训练后代的模型,“模型崩溃仍然会发生,只是不会那么快”Shumailov说道。

幸运的是,即使使用现有的转换器和 LLM,也有一些方法可以避免模型崩溃。

研究人员强调了两种具体方式。第一个是保留原始的完全或名义上由人工生成的数据集的副本,并避免与 AI 生成的数据相混淆。然后,模型可以根据这些数据定期重新训练,或者从头开始用它完全刷新。

避免响应质量下降并减少 AI 模型中不需要的错误或重复的第二种方法是将新的、干净的、人类生成的数据集重新引入到他们的训练中。

然而,正如研究人员指出的那样,这需要内容制作者或人工智能公司采用某种大规模标签机制或努力来区分人工智能生成的内容和人类生成的内容。

“为了阻止模型崩溃,我们需要确保原始数据中的少数群体在后续数据集中得到公平的代表,”Shumailov 说道。

这些发现对人工智能领域具有重要意义,强调需要改进方法以随着时间的推移保持生成模型的完整性。他们强调了未经检查的生成过程的风险,并可能指导未来的研究制定策略来防止或管理模型崩溃。

很明显,模型崩溃是 ML 的一个问题,必须采取一些措施来确保生成 AI 继续改进。


返回网站首页

本文评论
微博宣布 3 月 11 日上线“一键防护”功能,减少和预防用户遭受言论攻击的情况
  据微博管理员官方消息,为有效减少和预防用户遭受言论攻击的情况,微博平台于 3 月 11 日正式上线“一键防护”功能,该功能测试阶段仅针对部分用户开放,后续将面向全站用户开...
日期:07-17
内容管理系统厂商注意!“幽灵”勒索病毒入侵超两千个CMS网站
  勒索病毒又来了!这次的病毒跟它的名字一样,颇有些“阴魂不散”的意思。近日,腾讯安全御见威胁情报中心检测发现,针对Windows系统的Shade(幽灵)勒索病毒4.0版本再度来袭,通...
日期:05-10
中国信通院 数字经济白皮书「重磅!中国信通院发布《区块链白皮书(2022年)》」
2022年12月29日,由中国信息通信研究院(以下简称“中国信通院”)、中国通信标准化协会和中国互联网协会指导,可信区块链推进计划、中国互联网协会区块链技术应用工作委员会、中国...
日期:12-29
手机lgp880「手机LGP503」
手机LG P880是LG电子公司出品的一款旗舰手机。它采用了4.7英寸高清IPS液晶屏幕,分辨率高达1280x720像素,显示效果清晰逼真。同时,该手机还搭载了1.5GHz双核处理器和1GB RAM,流畅...
日期:05-31
甲骨文与Google就Android侵权案谈判(谷歌和甲骨文的版权案)
  9月8日消息,甲骨文公司今天表示,针对Google Android侵犯甲骨文专利一事,双方正进行新的协商,协商是“经过授权的”,甲骨文提议本月进行调解。   今天,甲骨文律师迈克尔·雅...
日期:07-22
安卓的盛世危机:利益秩序混乱 用户体验下降
  安卓系统在智能手机和平板电脑两大领域捷报频传,但鲜亮的市场份额数字,却难以掩盖安卓将面临的盛世危机,阵营内利益秩序混乱以及用户体验好评下降,让安卓产业生态系统开始...
日期:07-24
宜家储物柜竟成网红打卡地 上海宜家禁止在仓库拍照_宜家有储物柜吗
近日,有网友发现宜家大仓库区域不允许拍照了,还一度登上热搜第一。上海某门店客服称一般的情况下,我们是让每个顾客满意,如果只是拿出手机随意拍两张是无所谓的。但是有的人,一些...
日期:03-09
水母智能:AI,让每一件物品都值得被设计(水母智能科技)
  一直以来,人工智能似乎总在被误解。一些科幻场景中,AI被塑造成代替人类的机器大脑,而当下被技术和舆论广泛关注的人工智能,实则是致力于在各行各业通过输出行业理解来简化...
日期:09-27
618新打法?真我realme爆款出击围观市场“价格战”「真我realmeq」
2023 年手机市场复苏在即,聚光灯下的“618”备受关注。今年上半年,多家数据机构公布了中国手机市场一季度的市场数据,根据Counterpoint手机销量月度报告显示, 2023 年第 一季度...
日期:05-31
正在变热的短剧出海,会成为“下一个网文”产业吗?_出海短视频
声明:本文来自微信公众号“白鲸出海”(ID:baijingapp),作者:李爽,编辑:殷观晓,授权转载发布。短剧,这两年火得很,在国内甚至带动了先入局的快手的各项数据增长,从用户数据到电商和广...
日期:05-19
索尼新机设计专利曝光_索尼 新产品
  (原标题: 全新双升降式结构没想到吧)   日前,索尼一项手机设计专利在网上曝光,即通过升降式机械结构来实现正面的全面屏效果。但值得注意的是,索尼不仅像其他产商一样,通...
日期:07-14
U-Mail邮件中继助力企业海内外沟通畅通无阻_u_mail邮箱
  随着全球经济一体化的快速发展, 越来越多的中国企业开始走向国际市场,国际贸易和海外商务活动日益频繁。与此同时,企业的海外通信需求也越来越多,导致沟通成本不断增长,尤...
日期:04-23
马斯克:人形机器人Optimus将使用FSD系统 数量超过特斯拉汽车
5月17日消息,美国当地时间周二,特斯拉2023年年度股东大会在该公司位于美国得州奥斯汀的工厂召开。该公司首席执行官埃隆·马斯克(Elon Musk)现场回答了股东诸多提问,包括Cybertru...
日期:05-17
关爱码农,拒绝瞎眼:微软在GitHub上推出Cascadia Code新字体
  9月19日消息 此前,微软在Build2019上宣布将面向开发人员推出全新的Cascadia Code字体,目前这一字体已经上线GitHub。有需要的用户可以下载使用。   据微软的介绍,全新的...
日期:07-15
二轮电动车自燃的原因「电动两轮车日均起火近50辆 80%都是这三种情况引发」
两轮电动车因为方便、经济,成为城市通勤首选交通工具。不过,电动车的充电安全问题,特别是起火事故,也愈发引人关注。据艾瑞咨询发布的《2022年中国两轮电动车行业白皮书》显示,20...
日期:12-04
史上最“卷”双十一,百万品牌怎么破局?「双十一破亿品牌有哪些」
声明:本文来自于微信公众号甲方财经(ID:jiafangcaijing2019),作者:雷神,授权转载发布。今年的双十一,注定不同往年。●其势,所有品牌,都渴望一场冲量提气;●其道,直播成为最关键的主战...
日期:10-29
微软Windows营销主管离职 否认与公司有过节
  据国外媒体报道,微软Windows系统营销副总裁布拉德·布鲁克斯(Brad Brooks)日前表示其离职的原因是专注于未来云计算技术,而不是是因为他与微软有什么过节。   布拉德·...
日期:07-26
百度阅读开放平台_百度客户端新布局:阅读器开始内测
  9月7日午间消息,百度正在内部测试百度阅读器,这款产品包括在线书库等模块,可以进行在线和本地的阅读文档进行管理。这也是百度在客户端领域的最新布局。按计划,百度阅读器...
日期:07-22
ChatGPT太火 美国政府准备动手了「美国char」
时速350公里的高铁车次电视怎么涨价了凤凰网科技讯 北京时间4月11日消息,由于人们越来越担心ChatGPT等人工智能工具可能被用于歧视或传播有害信息,美国拜登政府已经开始研究是...
日期:04-11
网易自主研发游戏第四季度表现强劲_网易游戏业绩
  导语:高盛周四发布投资报告,称网易自主研发的多款游戏在2010财年第四季度表现强劲,从而推动公司网游营收环比增长14%。   以下为报告内容摘要:   财报要点:   网易201...
日期:07-26