您的位置:首页 > 互联网

AI公司用“AI合成数据”来训练AI大语言模型成趋势_ai技术合成怎么弄

发布时间:2023-07-19 20:49:02  来源:互联网     背景:

导语:AI 公司正试图通过“创造信息”来获得用于训练 AI 系统的大量数据,这被称为 "合成数据"。现在,AI 模型的发展已经达到了人类创造的数据的极限,因此需要新的方法来训练模型。

目前,训练 AI 模型的数据主要来自于互联网,用于训练这些系统的数据包括数字化的图书、新闻文章、博客、搜索查询、Twitter 和 Reddit 帖子、YouTube 视频和 Flickr 图像等内容。

ai技术合成怎么弄

ios16正式版本建议更新吗

长虹电视能安装电视直播软件吗

但是随着生成式 AI 技术的发展,即使是资金充裕的 AI 公司也很难找到易获取且高质量的数据。合成数据的使用可以绕过这个问题,公司可以使用 AI 模型生成文本、代码等信息,并用于训练更先进的模型。

airpods pro镌刻符号

根据 Cohere 的首席执行官 Aidan Gomez 的说法,合成数据已经很多,只是没有被广泛传播。例如,为了训练一个模型进行高级数学,Cohere 可能会使用两个互相交流的 AI 模型,其中一个扮演数学导师,另一个扮演学生。Gomez 表示:“他们正在进行三角学的对话…… 这完全是合成的。这些只是模型想象出来的。然后人类观察这段对话,如果模型说错了内容,就进行修正。这是目前的现状。”

微软研究院的两项最新研究表明,合成数据可以用于训练比 OpenAI 的 GPT-4或 Google 的 PaLM-2等最先进的软件更小更简单的模型。其中一篇论文描述了 GPT-4生成的一组短篇故事的合成数据集,该数据集只包含一个典型四岁孩子可能理解的词语。这个数据集被称为 TinyStories,然后用于训练一个简单的 LLM,能够生成流利和符合语法的故事。

另一篇论文展示了可以使用合成的 Python 代码进行训练,这些代码以教科书和练习的形式存在,他们发现这些代码在编码任务上表现相对不错。

一些初创公司如 Scale AI 和 Gretel.ai 已经提供合成数据作为服务,这种数据可以保护个人隐私,同时保持统计数据的完整性。Gretel 由前美国国家安全局和中央情报局的情报分析师创立,与谷歌、汇丰银行、Riot Games 和 Illumina 等公司合作,通过合成数据的方式来增强他们现有的数据,以帮助训练更好的 AI 模型。

马斯克删推特账号 新闻

然而,使用低质量的合成数据可能会阻碍进展,并可能导致技术的退化。随着 AI 生成的文本和图像开始充斥互联网,AI 公司在搜索训练数据时不可避免地会使用其自身早期版本生成的原始数据,这种现象被称为 “dog-fooding”。一项来自牛津和剑桥等大学的研究最近警告称,训练模型时使用自身的原始输出(可能包含虚假或捏造的信息)可能会逐渐损害和降低技术的质量,造成 “不可逆的缺陷”。尽管存在这些风险,AI 研究人员认为合成数据有助于加速超级智能 AI 系统的发展。


返回网站首页

本文评论
理科566分在四川排名「差1分成状元:四川理科711分考生想去北大 妈妈极为理性」
6月23日晚,四川高考成绩放榜,各种学霸纷纷现身。据悉,今年四川高考理科698分及以上的有62人,成都七中的张蓝月(林荫校区)以712分夺魁;文科636分及以上有34人,绵阳中学的曾昱以654分...
日期:06-24
小米10青春版常程_小米10青春版常程设置
是小米公司于2020年6月发表的一款高性价比手机,目的在于打造年轻人的“闪亮生活”。这款手机主打年轻化,外观采用6.57英寸中心开孔全面屏设计,屏幕分辨率为2400×1080,支持HDR10...
日期:05-29
李彦宏创业初期「AI前哨 | 李彦宏宣布设立10亿创投基金促进大模型生态发展」
凤凰网科技讯 《AI前哨》5月31日消息,百度创始人、董事长兼首席执行官李彦宏在摩根大通全球中国峰会期间宣布,百度将设立10亿元人民币的百度文心投资基金,旨在推动大模型生态繁...
日期:06-01
我国运营商5G投资超4016亿元:5G资费很难大降了_中国对5g投入
.tech-quotation{padding:20px 20px 0px;background:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom...
日期:08-15
麦肯锡报告:生成式AI每年可为全球经济带来高达4.4万亿美元的收入
6月14日 消息:近来似乎大公司的领导对生成式人工智能感到非常兴奋,并且急于宣布或接受新的人工智能工具。然而,这些举措将对经济造成什么影响呢?虽然很难确定,但全球咨询领导公...
日期:06-14
特斯拉开始生产Semi电动卡车 首批12月交付「特斯拉 电动货车」
10月8日消息,特斯拉CEO马斯克的最新推文显示,特斯拉已经开始生产Semi电动卡车,并计划于12月1日开始向百事公司交付。百事公司周五也证实,将于12月1日开始接收特斯拉的Semi电动卡...
日期:10-10
最火的AI应用:ChatGPT月活用户达1亿创纪录
ChatGPT无疑是目前发展最迅猛的应用之一,它的爆火让人工智能赛道再度升温。瑞银的一份研究报告显示,OpenAI旗下聊天机器人ChatGPT在推出仅两个月后,月活跃用户估计已达1亿,成为...
日期:02-02
Meta首次发行100亿美元债券(美国债券发行数据)
讯 北京时间8月10日消息,Facebook母公司Meta周二表示,已在其首次债券发行中筹集了100亿美元,这是Meta第一次发行债券,债券期限从5年至40年不等,Meta会用这笔资金回购股票,投资改善...
日期:08-11
ASML:芯片供应链脱钩自主生产不可能 美国日本也不例外_asic芯片龙头股
6月25日消息,据日经亚洲报道,ASML执行副总裁兼首席商务官Christophe Fouquet表示,全球半导体供应链脱钩即使可能,也将极其困难且昂贵,任何一个国家都很难建立自己完全自力更生的...
日期:06-25
《2019国民出行绿皮书》发布,什么车有潜力成为下一辆“国民车”?
  2019年初,中国的汽车市场进入了一段低谷,消费者们在观望“国六”标准出台的具体时间表和市场的落实情况。从今年6月份起,国家出台了一系列逐步放宽或取消限购等刺激汽车消...
日期:07-10
作家维权联盟可能起诉苹果  已发出律师函
昨天,备受业内关注的“作家维权联盟”由执行人贝志城通报了维权的最新进展。针对网络盗版的维权,贝志城表示,已经在7月20日向苹果公司和百度公司发出律师函。由于苹果未对侵权...
日期:07-22
被黑维护审核_黑客网站负责人受审 辩称:我是“传黑防黑”
  昨天,黑基网(原黑客基地)负责人王献冰及讲师周林亮,因涉嫌提供侵入、非法控制计算机信息系统的程序、工具罪,在海淀法院受审。这也是刑法修正(七)出台后,本市首例相关案例...
日期:07-24
奢侈品定制公司 Caviar 推出镀金版 PS5,售价 50 万美元
  2 月 19 日消息 俄罗斯顶级奢侈品定制公司 Caviar 正式推出了他们的定制版镀金 PS5,定价 49.99 万美元,折合人民币约 323 万元。   根据外媒 GSMArena 的报道,这款镀金...
日期:07-16
陈可冀院士中西医结合第一人「陈可冀院士:别纠结中医西医,能治病就是好医」
作者|章剑锋出品|网易科技《科学大师》栏目农历新年转眼就到了,一年过去,多少负重前行的人,打点行装,回家团圆。经过三年疫情的困扰,在接二连三阳过的切身经历中,想必大家更能真切...
日期:01-17
荣耀magic 2百度百科「8999元折叠屏之王!荣耀Magic V2开启预售」
荣耀Magic V2已在京东自营店开始预售,起售价为8999元。这款折叠屏旗舰被称为"折叠屏王者",以其极轻薄的设计引领折叠屏进入毫米时代。为了实现更轻薄的设计,荣耀Magic V2采用了...
日期:07-14
宏禧聚信广告助手荣获2020中国金指尖奖“2020最佳创新营销平台”
  5月29日,深圳市宏禧聚信广告有限公司(以下简称为:宏禧聚信)携“宏禧聚信广告助手”受邀参加了由艾媒咨询主办的“2020全球未来科技大会”春季线上峰会,并荣获大会颁发的“...
日期:07-14
苹果市场预测_分析师预测苹果每个星期在美国销售20万台iPad
  据投资银行Premier Investment Bank发布的统计数据显示,苹果每个星期在美国销售20万台iPad平板电脑,超过了Mac计算机的销售量。不过,iPad的销售量仍然低于3GS版 iPhone的...
日期:07-29
曝一加折叠屏手机OnePlus Open将于8月29日发布_一加手机折扣
7月14日 消息:根据最新爆料,一加将于8月29日在国内发布其首款折叠屏手机,预计命名为"OnePlus Open"。这款新机将配备一块7.8英寸2K AMOLED内屏和一块6.3英寸AMOLED外屏,刷新率...
日期:07-14
美国 337 调查事项已全部终结_未对生产经营造成实质影响 ,立讯精密
IT技术信息 9 月 13 日消息,立讯精密今日发布关于美国国际贸易委员会对公司开展 337 调查的最终裁决结果公告。11月前16天快递量预计达578亿件乐视max70电视欧蓝德露营车美国...
日期:09-13
金山毒霸2008_金山毒霸2011 SP5版力保网购无忧
  金山毒霸是拥有自主知识产权完全免费的专业杀毒软件,已在信息安全领域耕耘了13个年头。金山毒霸的一项发明专利(专利号:200510036275.1)近期获得国家专利优秀奖。   20...
日期:07-25