您的位置:首页 > 互联网

谷歌这一“大招”,要逼死多少AI标注公司?

发布时间:2023-09-18 10:24:06  来源:互联网     背景:

声明:本文来自于微信公众号AI新智能(ID:alpAIworks),作者:举大名耳,授权转载发布。

如果说,当下的生成式AI,是一个正在茁壮成长的孩子,那么源源不断的数据,就是其喂养其生长的食物。

而数据标注,就是制作这一“食物”的过程。

然而,这一过程真的很卷,很累人。

进行标注的“标注师”不仅需要反复地识别出图像中的各种物体、颜色、形状等,有时候甚至需要对数据进行清洗和预处理。

随着AI技术的不断进步,人工数据标注的局限性也日益显现。人工数据标注不仅耗时耗力,而且质量有时难以保障。

为了解决这些问题,谷歌最近提出了一种用大模型替代人类进行偏好标注的方法,称为AI反馈强化学习(RLAIF)。

研究结果表明,RLAIF可以在不依赖人类标注的情况下,产生与人类反馈强化学习(RLHF)相当的改进效果,两者的胜率都是50%。同时,RLAIF和RLHF都优于监督微调(SFT)的基线策略。

这些结果表明,RLAIF不需要依赖于人工标注,是RLHF的可行替代方案。

那么,倘若这一技术将来真的推广、普及,众多还在靠人工“拉框”的数据标注企业,从此是否就真的要被逼上绝路了?

1

数据标注现状

如果要简单地总结目前国内标注行业的现状,那就是:劳动量大,但效率却不太高,属于费力不讨好的状态。

成都的共享汽车

标注企业被称为AI领域的数据工厂,通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。

为了控制成本,标注公司的老板们会在县城里租一块场地,摆上电脑,有订单了就在附近招人兼职来做,没单子就解散休息。

简单来说,这个工种有点类似马路边上的临时装修工。

在工位上,系统会随机给“标注师”一组数据,一般包含几个问题和几个回答。

之后,“标注师”需要先标注出这个问题属于什么类型,随后给这些回答分别打分并排序。

此前,人们在谈论国产大模型与GPT-4等先进大模型的差距时,总结出了国内数据质量不高的原因。

但数据质量为何不高?一部分原因,就出在数据标注的“流水线”上。

目前,中文大模型的数据来源是两类,一类是开源的数据集;一类是通过爬虫爬来的中文互联网数据。

中文大模型表现不够好的主要原因之一就是互联网数据质量,比如,专业人士在查找资料的时候一般不会用百度。

因此,在面对一些较为专业、垂直的数据问题,例如医疗、金融等,就要与专业团队合作。

可这时,问题又来了:对于专业团队来说,在数据方面不仅回报周期长,而且先行者很有可能会吃亏。

例如,某家标注团队花了很多钱和时间,做了很多数据,别人可能花很少的钱就可以直接打包买走。

联通拍卖靓号

面对这样的“搭便车困境”,国内大模型纷纷陷入了数据虽多,但质量却不高的诡异困境。

既然如此,那目前国外一些较为领先的AI企业,如OpenAI,他们是怎么解决这一问题的?

其实,在数据标注方面,OpenAI也没有放弃使用廉价的密集劳动来降低成本,

例如,此前就曝出其曾以2美元/小时的价格,雇佣了大量肯尼亚劳工进行有毒信息的标注工作。

但关键的区别,就在于如何解决数据质量和标注效率的问题。

具体来说,OpenAI在这方面,与国内企业最大的不同,就在于如何降低人工标注的“主观性”、“不稳定性”的影响。

2

3000流明的投影仪好不好

OpenAI的方式

为了降低这样人类标注员的“主观性”和“不稳定性”,OpenAI大致采用了两个主要的策略:

1、人工反馈与强化学习相结合;

这里先说说第一点,在标注方式上,OpenAI的人工反馈,与国内最大的区别,就在于其主要是对智能系统的行为进行排序或评分,而不是对其输出进行修改或标注。

智能系统的行为,是指智能系统在一个复杂的环境中,根据自己的目标和策略,做出一系列的动作或决策。

例如玩一个游戏、控制一个机器人、与一个人对话等。

智能系统的输出,则是指在一个简单的任务中,根据输入的数据,生成一个结果或回答,例如写一篇文章、画一幅画。

通常来说,智能系统的行为比输出更难以用“正确”或“错误”来判断,更需要用偏好或满意度来评价。

而这种以“偏好”或“满意度”为标准的评价体系,由于不需要修改或标注具体的内容,从而减少了人类主观性、知识水平等因素对数据标注质量以及准确性的影响。

诚然,国内企业在进行标注时,也会使用类似“排序”、“打分”的体系,但由于缺乏OpenAI那样的“奖励模型”作为奖励函数来优化智能系统的策略,这样的“排序”和“打分”,本质上仍然是一种对输出进行修改或标注的方法。

2、多样化、大规模的数据来源渠道;

国内的数据标注来源主要是第三方标注公司或科技公司自建团队,这些团队多为本科生组成,缺乏足够的专业性和经验,难以提供高质量和高效率的反馈。

而相较之下,OpenAI的人工反馈则来自多个渠道和团队。

OpenAI不仅使用开源数据集和互联网爬虫来获取数据,还与多家数据公司和机构合作,例如Scale AI、Appen、Lionbridge AI等,来获取更多样化和高质量的数据。

与国内的同行相比,这些数据公司和机构标注的手段要“自动”和“智能”得多。

例如,Scale AI使用了一种称为 Snorkel的技术,它是一种基于弱监督学习的数据标注方法,可以从多个不精确的数据源中生成高质量的标签。

同时,Snorkel还可以利用规则、模型、知识库等多种信号来为数据添加标签,而不需要人工直接标注每个数据点。这样可以大大减少人工标注的成本和时间。

在数据标注的成本、周期缩短的情况下,这些具备了竞争优势的数据公司,再通过选择高价值、高难度、高门槛的细分领域,如自动驾驶、大语言模型、合成数据等,就可不断提升自己的核心竞争力和差异化优势。

如此一来,“先行者会吃亏”的搭便车困境,也被强大的技术和行业壁垒给消弭了。

3

标准化VS小作坊

由此可见,AI自动标注技术,真正淘汰的只是那些还在使用纯人工的标注公司。

尽管数据标注听上去是一个“劳动密集型”产业,但是一旦深入细节,便会发现,追求高质量的数据并不是一件容易的事。

以海外数据标注的独角兽Scale AI为代表,Scale AI不仅仅在使用非洲等地的廉价人力资源,同样还招聘了数十名博士,来应对各行业的专业数据。

数据标注质量,是Scale AI为OpenAI等大模型企业提供的最大价值。

而要想最大程度地保障数据质量,除了前面提到的使用AI辅助标注外,Scale AI的另一大创新,就是了一个统一的数据平台。

这些平台,包括了Scale Audit、Scale Analytics、ScaleData Quality 等。通过这些平台,客户可以监控和分析标注过程中的各种指标,并对标注数据进行校验和优化,评估标注的准确性、一致性和完整性。

可以说,这样标准化、统一化的工具与流程,成为了区分标注企业中“流水线工厂”和“手工小作坊”的关键因素。

在这方面,目前国内大部分的标注企业,都仍在使用“人工审核”的方式来审核数据标注的质量,只有百度等少数巨头引入了较为先进的管理和评估工具,如EasyData智能数据服务平台。

如果在关键的数据审核方面,没有专门的工具来监控和分析标注结果和指标,那对数据质量的把关,就仍旧只能沦为靠“老师傅”眼力见的作坊式水准。

因此,越来越多的国内企业,如百度、龙猫数据等,都开始利用机器学习和人工智能技术,提高数据标注的效率和质量,实现人机协作的模式。

由此可见,AI标注的出现,并不是国内标注企业的末日,而只是一种低效、廉价、缺乏技术含量的劳动密集型标注方式的末日。


返回网站首页

本文评论
沈炜:vivo的黄金时代不在过去 仍在将来_沈炜vivo创始人、总裁兼首席执行官
1月11日晚间消息,vivo今天晚上召开2022线上年会,对2022年进行了回顾和总结,并对2023年提出了展望和规划;同时,对“vivo人像”等20个项目颁出年度创新贡献奖。苹果买哪个第三方的...
日期:01-11
UCWeb印度市场份额超两成 宣布进军北美市场
  “UC浏览器的海外用户已经突破2000万,在印度市场,UC的份额已经超过了20%,很快我们就将进军美国市场。”近日,一年一度的硅谷中国无线移动年会(SVCWM2011)在美国加州山景城...
日期:07-23
硅谷长盛不衰的原因「衰老速度就放缓24% 硅谷大亨打破逆转衰老记录」
凤凰网科技讯 2月8日消息,在上天、入海后,硅谷科技大亨的人生“新追求”又吸引了全球网友的目光。45岁的硅谷科技大亨Bryan Johnson决定把自己的身体变成一台机器。经过7个月...
日期:02-08
中移动 芯片「中移芯昇国内首颗基于RISC-V架构的LTE-Cat.1bis通信芯片亮相科技周」
通信世界网消息(CWW)9月14日,由中移科协、中国移动集团技术部主办的中国移动第四届科技周暨第52期“科技成果日”特别活动——科创成果发布推介会成功举办。中移芯昇科技通信事...
日期:09-15
百度地图:全国范围复工指数已达57.42% ,复工复产按下“加速键”
  随着新冠肺炎疫情得到有效控制,全国多地复工复产按下“加速键”。本周,百度地图大数据持续跟进复工指数,聚焦全国37座重点城市的复工情况。据最新发布数据显示,截至2020年3...
日期:08-11
男子用ChatGPT编假新闻牟利:买大量账号上传 涉嫌寻衅滋事罪
近日,平凉市公安局网安大队侦破一起利用AI人工智能技术炮制虚假不实信息的案件。这也是自1月10日《互联网信息服务深度合成管理规定》颁布实施后,甘肃省侦办的首例案件。据平...
日期:05-07
原因令人无语!iPhone 15 Pro固态按键设计改了
据知名分析师郭明錤透露,苹果已取消iPhone 15 Pro固态按键的设计,将回归实体按键。原因是在量产前无法克服技术问题。之前有消息称,iPhone 15 Pro将采用类似于iPhone 7上的不可...
日期:04-14
亚马逊将在全球开发71个可再生能源新项目「可再生能源领域」
  IT之家9月23日消息,据华尔街日报报道,当地时间周三,电商零售巨头亚马逊公司宣布,将扩大旗下可再生能源资产组合,会在全球开发71个新项目,总计提供2.7GW的清洁能源电力。  亚...
日期:09-28
再获国际认可,微步在线斩获 CDM InfoSec Awards 2021 最具创新 、前沿、最佳产品三奖项
  日前,RSAC 2021 大会于线上开幕,全球权威网络安全媒体 Cyber Defense Magazine(CDM)发布了 InfoSec Awards 2021 获奖名单。作为中国下一代网络安全代表性企业,威胁情报领...
日期:11-15
法拉第未来宣布最多可达3.5亿美元的新融资协议 资助FF 91推出「法拉第未来FF股票」
11月15日消息,据国外媒体报道,当地时间周一,电动汽车初创公司法拉第未来宣布了一项总额最多可达3.5亿美元的融资协议,以帮助其推出期待已久的FF 91电动汽车。当地时间周一,法拉第...
日期:11-18
腾讯幻核宣布停售数字藏品,内部人士:不涉及人员裁撤
记者/范佳来   深陷裁撤风波的腾讯数字藏品平台“幻核”宣布,将停止数字藏品发行。; kinect怎么连接电脑ipad pro触摸屏华为matex折叠新机   8月16日,腾讯幻核发布公告,称...
日期:08-16
国家邮政局:全国快递业务量突破400亿件「中国邮政快递量占比」
5月5日 消息:据国家邮政局消息,截至5月4日,今年我国快递业务量达400亿件,比2019年达到400亿件提前了128天,比2022年提前了24天。数据显示,今年五一假期(4月29日~5月3日),全国共揽收...
日期:05-05
蔚来二季度营收87.7亿元:三季度目标销量要多卖一倍_蔚来二季报
快科技8月29日消息,蔚来汽车现发布了截至6月30日的最新季度财报。蔚来2023年Q2营收87.717亿元,市场预期92.54亿元,去年同期102.9亿元。蔚来汽车二季度交付汽车23520辆,预计第三...
日期:08-30
华为在浙加速布局鲲鹏计算产业生态 如何“链”动浙江?_围绕鲲鹏计算产业,华为提供
  (文章来源:浙江日报) 东方通信科技园,浙江省鲲鹏生态创新中心就坐落于此 摄影:徐青青   “鱼米生沃土,昆仑运天工。朋聚钱塘畔,鸟瞰滨江春。”   日前,华为公司以海...
日期:03-25
小米2 2s 传感器对比 净化器「小米2 2s」
小米2和小米2S是小米科技于2012年和2013年发布的两款高端智能手机。这两款手机具有强大的性能和许多特色功能。它们是在小米科技崛起的过程中至关重要的产品。长城汽车产业...
日期:05-30
蔚来在德国、荷兰、丹麦、瑞典开放ET7、EL7和ET5车型订阅服务「蔚来et7和es8」
10月8日消息,北京时间10月8日0点,柏林当地时间10月7日18点,蔚来在德国柏林举办了NIOBerlin发布会。大会宣布,蔚来的三款最新车型:ET7、EL7和ET5,将通过订阅模式在德国、荷兰、丹麦...
日期:10-10
三星5670手机_三星7562手机
是一款经典的老式手机,它于2010年正式推出。该手机采用了2.8英寸的触控屏幕,分辨率为240×320像素,支持262K色彩,显示效果良好。同时,搭载了1GB的内存,用于存储各种数据文件,足以满...
日期:05-30
透过百度沸点2019洞悉全民精神需求背后的新供给关系
  2019年是新中国成立的70周年,回顾70年发展之路,居民人均可支配收入增长288倍,恩格尔系数下降了40个百分点。从“吃得饱”都是问题到“吃得好”不成问题,国民物质生活水平一...
日期:01-23
首届中文NL2SQL挑战赛启动,NLP打破数据库壁垒
  随着人工智能蓬勃发展,NLP等AI认知技术,也开始取得了积极进展,创新技术和应用不断突破,其中NLP在数据库交互,也逐步引起学界和工业界瞩目。   6月3日,国内首届中文NL2SQL挑...
日期:05-15
小米4手机「小米4手机有几种颜色」
近年来随着手机市场的竞争日益尖锐,小米作为中国本土品牌在国内手机市场上发展迅猛,拥有众多忠实粉丝。其中,作为小米公司推出的旗舰手机,一经推出就备受市场的欢迎。拥有一枚高...
日期:05-29