您的位置:首页 > 互联网

人类数据告急,微软OpenAI开始用AI喂AI,奥特曼放话:未来所有数据都将变成合成数据

发布时间:2023-08-14 16:37:02  来源:互联网     背景:

声明:本文来自微信公众号“量子位”(ID:QbitAI),作者:萧箫,授权转载发布。

人类数据缺缺缺,AI被迫开始吃AI生产的数据了!

这是微软、OpenAI等一众AI前沿公司面临的现状。

他们从维基百科、电子书、新闻网站、博客、推特和Reddit等平台和论坛中搜罗了大量数据,然后现在……这些数据快被用完了。

BUT,要训练更好的大模型,多少数据都不够。

据《金融时报》介绍,不少公司正把大模型生成的结果、也就是所谓的合成数据(Synthetic data),喂给参数量更小的大模型吃,发现效果还不错。

初代apple watch更新

对于使用合成数据,OpenAI的CEO Sam Altman不仅不介意,还放话“未来所有数据都将变成合成数据”。

估值20亿美元的大模型初创公司Cohere同样在用合成数据。公司CEO、经典大模型Transformer论文作者之一Aidan Gomez甚至认为:

合成数据可能加速通往“超级智能”AI系统的道路。

所以,究竟哪些大模型已经在用合成数据了,这些合成数据又是从何而来?

大AI合成数据,小AI吃

这些所谓的合成数据,本质上是用当前表现较好的大模型生成的数据,经过人工调整后,再喂给稍微小一点的大模型。

例如Cohere公司就尝试使用了两个大模型进行“角色扮演”对话,并将它们生成的结果做成合成数据。

这两个大模型分别扮演“数学老师”和“学生”,正在进行一堂虚拟的数学教学。同时,Cohere安排一个人类员工在旁边监督对话生成。

一旦对话出现错误,人类员工就会插手对文本进行修正。

尽管确实还需要人力,但这比聘请科学、医学和商业方面的专家来撰写文本要便宜得多。

那么,什么样的大模型会用到这些合成数据呢?

微软研究院最近有研究表明,合成数据可以用于训练比GPT-4或PaLM-2稍微小一点的语言模型。

以用GPT-4生成的一个“四岁儿童小说”数据集TinyStories为例,这个数据集被证明虽然只包含4岁小孩能理解的单词,但用于训练一个大模型之后,同样可以生成语法正确、阅读体验流畅的故事:

对于使用合成数据的理由,Cohere的CEO Aidan Gomez认为:

能从网上获取数据当然更好,但网络数据太杂乱了,完全无法满足需求。相比之下,合成数据已经非常多了,即使它还没被广泛传播。

背后产业链已出现

目前,包括Scale AI、Gretel.ai等企业,已经开始给外界提供合成数据服务。

先是Scale AI,旗下就推出了一款合成数据产品Scale Synthetic,用于给企业提供合成数据服务。

而在之前一篇SemiAnalysis爆料GPT-4“大花边”的新闻中,还提到GPT-4的数据集中,有数百万行是来自Scale AI和内部的指令微调数据。

至于合成数据平台Gretel.ai,从官网来看,它已经和谷歌、拳头游戏、汇丰银行等不同企业进行了合作,以生成更多合成的数据提供给其他开发者使用。

Gretel.ai的CEO Ali Golshan认为,合成数据的好处在于,它保留了数据集中所有个人的隐私,同时仍然保持其统计学意义上的完整性(statistical integrity)。

但并非所有人都接受合成数据这种“神奇操作”,目前各方的看法主要分成两波。

一部分赞同使用合成数据。包括Cohere等AI公司在内,有不少搞大模型的企业仍然坚持这一做法,并认为它可能生成更好的AI,甚至从中诞生出“超级智能”。

另一部分则认为,合成数据终将让AI“自食其果”。

例如一篇来自牛津大学、剑桥大学、帝国理工学院、多伦多大学、爱丁堡大学和Vector Institute多家机构的研究表明:

使用合成数据训练,会让模型出现不可逆转的缺陷:

忘记那些“不可能发生的事件”,最终被自己生成的数据毒害。

有网友认为,这些合成数据最后会变成一滩“无法使用的污泥”——然后人们不得不被迫雇佣数据科学家来对它进行清洗。

还有网友调侃,这听起来就像是“AI近亲繁殖”一样。

你认为AI需要使用合成数据吗?

参考链接:

[1]https://www.ft.com/content/053ee253-820e-453a-a1d5-0f24985258de

[2]https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more-leaked/

[3]https://arxiv.org/pdf/2306.11644.pdf[4]https://arxiv.org/pdf/2305.17493v2.pdf


返回网站首页

本文评论
时隔三年苹果再度对合同工“动刀” 据称约有100名招聘人员被裁(美国苹果公司合同工待遇)
来源:每日经济新闻   记者/蔡鼎; ;   编辑/兰素英;;   彭博社援引知情人士消息称,苹果公司(AAPL,股价173.19美元,市值2.78万亿美元)在过去一周解雇了约100名合同工制招聘人...
日期:08-17
诺基亚最薄的手机是哪一款「诺基亚最薄的手机」
诺基亚是世界著名的手机制造商,在全球范围内拥有众多忠实的用户。近年来,诺基亚的手机开发工程师们不断努力,推出了众多高端、智能的手机。其中,备受大家的关注。在本篇文章中,我...
日期:05-31
喜茶2017年门店规模「国庆假期喜茶部分门店销量增幅近300% 个别门店增幅达到500%」
10月8日消息,喜茶2022年国庆假期消费数据显示,和节前相比,国庆假期喜茶部分门店销量增幅近300%,个别门店甚至增幅达到了500%。喜茶GO微信小程序也显示,在国庆假期内,包括北上广深...
日期:10-27
红米Note12硬刚小米13!参数一致也悬「红米note11机身尺寸」
中关村在线消息:10月18日,据相关爆料,红米Note 12系列新机已入网,发布会时间预计在本月底或是11月初,新机定位将依然延续前代的定位策略。本次,红米将为大家带来两款全新的产品,分...
日期:10-20
苹果新专利:Apple Watch有摄像头 可以拍照了?「苹果自拍摄像头」
最近,苹果获得了一项专利(US-11571048-B1)申请,即一种Apple Watch表带释放系统,该系统可能会与内置摄像头一起使用。专利详细说明了一条表带,它有两个部分和一个“巢”部分,可以...
日期:02-13
手机lgp880「手机LGP503」
手机LG P880是LG电子公司出品的一款旗舰手机。它采用了4.7英寸高清IPS液晶屏幕,分辨率高达1280x720像素,显示效果清晰逼真。同时,该手机还搭载了1.5GHz双核处理器和1GB RAM,流畅...
日期:05-31
成为全球第一「全球首次!成功!」
王心艳 陈科 科技日报记者 谢开飞 叶青据中国东方电气集团2日消息,经中国工程院专家组现场考察后确认,由深圳大学、四川大学谢和平院士团队与该集团联合开展的,全球首次“海上...
日期:06-04
apple store收入「苹果称App Store累计营收超3200亿美元 付费订阅总数超9亿」
1月11日 消息:日前,苹果公开了其订阅业务和全球 App Store 的最新消息,自2008年以来,这家科技公司已向应用程序开发者支付了创纪录的3200亿美元。电信3g手机价格这家科技巨头表...
日期:01-11
史上最小的骁龙8 Gen2旗舰!华硕Zenfone 10发布:6300元起_骁龙手机华硕
快科技6月29日消息,华硕Zenfone 10正式发布。8GB 128GB售价799欧元(约合人民币6300元),16GB 256GB售价是929欧元(约合人民币7300元)。该机搭载高通骁龙8 Gen2移动平台,屏幕尺寸只有...
日期:06-30
三星Z Fold5、Flip5两款折叠屏本月发布 涨价了「三星flip z 5g」
三星已经官宣,将在7月26举行新品发布会,将会发布全新的Galaxy Z Fold5和Galaxy Z Flip5折叠屏手机。Galaxy Z Fold5除了升级到全新的骁龙8 Gen2 For Galaxy移动平台外,最大的变...
日期:07-15
网络骗子瞄上相亲节目 360拦截冒牌《非诚勿扰》_非诚勿扰节目是假相亲吗
  电视相亲节目越来越火,网络骗子也伺机而动。最近不少人的手机收到一条“《非常勿扰》幸运用户抽奖”短信,要求登录一家网址为www.520-fcwr.com的网站领取礼品。然而经360...
日期:07-23
网店实名制将加快传统企业进军电子商务进程(网店实名制将加快传统企业进军电子商务进程的建设)
  网店实名制将在7月1日正式实施,此规定不仅牵动着纯电子商务网站企业,也牵动着传统企业。万瑞数据互联网行业高级分析师于明认为,网店实名制将加快传统企业进军电子商务的...
日期:07-29
钉钉总裁叶军卸任Teambition公司执行董事「钉钉事业部负责人叶军」
凤凰网科技讯9月29日消息,天眼查App显示,近日,Teambition关联公司上海汇翼信息科技有限公司发生工商变更,钉钉总裁叶军卸任法定代表人、执行董事,均由傅徐军接任。图源:天眼查APP...
日期:10-03
挑选TCL C11G Pro,拯救电视选购迷茫,画质体验真香不容错过
因为工作的原因,每天要看很多剪辑后的视频短片,长时间盯着平板、电脑这种小屏幕眼部真的很疲劳,而且看着看着容易走神,无法真正欣赏到视频的细节和画面效果,后来拷到U盘用家里的...
日期:07-19
Windows 10更新Bug禁用了文件资源管理器右键单击
  11月28日消息 Windows 10版本1909(2019年11月更新)正在逐步推送。2019 Windows 10更新十一月版是一个小更新,它有望带来更好的性能,但这并不意味着一切都会顺利进行。...
日期:07-28
钉钉会议Rooms正式发布,开放音视频技术及认证标准(钉钉视频会议系统)
  品玩7月21日讯,在InfoComm China 2021上,钉钉会议推出智能会议室产品“Rooms”。这也是继钉钉搭、群聊、工作台等产品后,“云钉一体”战略下钉钉又一个从自身核心能力出发...
日期:12-28
腾讯接管2年后,阅文会做IP生意了吗?
声明:本文来自微信公众号“节点财经”(ID:jiedian2018),作者:四海,,授权转载发布。“不说了,说多了都是泪”。网文爱好者小易在今年6月得知QQ阅读会员涨价的消息时,心里无限感慨。涨...
日期:12-27
华为 P10 手机开始推送鸿蒙 HarmonyOS 2 内测版(华为鸿蒙harmonyos怎么升级)
  10 月 4 日消息 今年 9 月中旬,新一批 HarmonyOS 2 版本内测开启招募,新增 10 款机型,包括华为 P10、P10 Plus、Mate 9、Mate 9 Pro、Mate 9 保时捷设计、nova 3、华为畅...
日期:07-17
2021 年度中国游戏产业年会下月广州举办,索尼/微软/任天堂将参与(2021年索尼游戏发布会)
  11 月 26 日消息,据中国音数协游戏工委官方消息,由国家新闻出版署主管,中国音像与数字出版协会、中共广州市委宣传部等部门主办 2021 年度中国游戏产业年会定于 12 月 14...
日期:07-17
空中出租车?德国公司表示其时速测试已达250公里/小时「空中出租车真的要来了」
凤凰网科技讯 北京时间3月10日消息,德国空中出租车开发商Lilium Air Mobility表示,已经完成空中出租车的测试,其最高速度可达到250公里/小时。该公司在社交媒体上发布预告后表...
日期:03-10