您的位置:首页 > 互联网

数据标注员什么时候会被AI替代?谷歌:现在就行「数据标注员 知乎」

发布时间:2023-09-11 14:13:50  来源:互联网     背景:

声明:本文来自于微信公众号 未来科技力(ID:smartechworld),作者:李禾子,授权转载发布。

似乎自ChatGPT进入大众视野起,需要依靠人工进行数据标注,就成为人们对大语言模型(LLM)根深蒂固的印象之一。

数据标注员会经常加班吗

从两个以上大模型针对同一个问题给出的不同回答里,找到当中的语病、逻辑和事实错误,标记不同的错误类型,再对这些回答按照质量分别进行打分等,这些都是大模型数据标注员要干的事情。

这个过程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人类反馈的强化学习。RLHF也是被ChatGPT、Bard和LLaMA等新兴大模型带火的模型训练方法,它最大的好处就在于能够将模型和人类的偏好对齐,让大模型给出更符合人类表达习惯的回答。

不过最近发布在arXiv的一份论文表明,这份看起来只有人类能做的工作,也能被AI取代!

AI也取代了RLHF中的“H”,诞生了一种叫做“RLAIF”的训练方法。

这份由谷歌研究团队发布的论文显示,RLAIF能够在不依赖数据标注员的情况下,表现出能够与RLHF相媲美的训练结果——

如果拿传统的监督微调(SFT)训练方法作为基线比较,比起SFT, 1200 个真人“评委”对RLHF和RLAIF给出答案的满意度都超过了70%(两者差距只有2%);另外,如果只比较RLHF和RLAIF给出的答案,真人评委们对两者的满意度也是对半分。

这里的“胜率”体现了文中的“满意度”

需要说明的是,谷歌的这篇论文也是第一个证明了RLAIF在某些任务上能够产生与RLHF相当的训练效果的研究。

最早提出让AI反馈代替人类反馈用于强化学习训练的研究,是来自 2022 年Bai et al. 发布的一篇论文。这篇论文也首次提出了RLAIF的概念,并发现了AI标注的“天赋”,不过研究者在当时还并没有将人类反馈和AI反馈结果进行直接比较。

总之谷歌的这一研究成果一旦被更多人接受,将意味着不用人类指点,AI也能训练自己的同类了。

下面可以来看看RLAIF具体是怎么做的。

我们知道,RLHF的方法大致可以分为三个步骤:预训练一个监督微调LLM,收集数据训练一个奖励模型(RM),以及用强化学习(RL)方式微调模型。

从论文给出的图示看,AI和人类标注员发挥作用的环节,主要是在训练奖励模型(RM)并生成反馈内容这里。你可以把“奖励”理解为,让人/AI来告诉模型哪种回答更好,答得更好就能有更多奖励(所以也能理解人工标注存在的必要)。

接着研究人员主要就“根据一段文字生成摘要”这一任务,展示了RLAIF的标记方法。

下面的表格比较完整地展示了RLAIF方法的输入结构:

首先是序言(Preamble),用来介绍和描述手头任务的说明。比如描述说,好的摘要是一段较短的文字,具有原文的精髓…给定一段文本和两个可能的摘要,输出 1 或 2 来指示哪个摘要最符合上述定义的连贯性、准确性、覆盖范围和整体质量。

其次是样本示例(1-Shot Exemplar)。比如给到一段“我们曾是超过四年的好朋友……”的文本,接着给到两个摘要,以及“摘要 1 更好”的偏好判断,让AI学着这个示例对接下来的样本做标注。

再者就是给出所要标注的样本(Sample to Annotate),包括一段文本和一对需要标记的摘要。

最后是结尾,用于提示模型的结束字符串。

论文介绍到,为了让RLAIF方法中AI标注更准确,研究者也加入了其他方法以获取更好的回答。譬如为了避免随机性问题,会进行多次选择,其间还会对选项的顺序进行交换;此外还用到了思维链(CoT)推理,来进一步提升与人类偏好的对齐程度。

从原始prompt到输出的完整流程如下图所示:

能看到,就像人类标注员会给不同的回答打分一样(比如满分 5 分),AI也会依据偏好给每个摘要打分,相加起来是 1 分。所以这个分数就可以理解为上文提到的奖励。

数据标注员运用的是什么软件

以上就是RLAIF方法大致会经历的过程。

而在评价RLAIF方法的训练结果到底好不好时,研究人员使用了三个评估指标,分别是AI标签对齐度(AI Labeler Alignment)、配对准确度(Pairwise Accuracy)和胜率(Win Rate)。

简单理解三个指标,AI标签对齐度指的就是AI偏好相对于人类偏好的精确程度,配对准确度指训练好的奖励模型与人类偏好数据集的匹配程度,胜率则是人类在RLAIF和RLHF生成结果之间的倾向性。

研究人员在依据评估指标进行了繁杂的计算之后,最终得出了RLAIF和RLHF“打平手”的结论。

当然也有一些非量化的定性分析。譬如研究发现,RLAIF似乎比RLHF更不容易出现“幻觉”,下表所示几个例子中标红部分便是RLHF的幻觉,尽管看上去是合理的:

而在另一些例子里,RLAIF的语法表现似乎又比RLHF差不少(标红为RLAIF的语法问题):

尽管如此,RLAIF和RLHF整体来说生成高质量摘要的能力还是旗鼓相当的。

该论文的发布很快收获了不少关注。比如有从业者评论道,等到GPT- 5 可能就不需要人类数据标注员了。

也有网友贴图打趣,用AI来训练同类的做法就好比是这张梗图。

苹果发售是线上线下同时的吗

不过针对谷歌这篇论文中用到的研究方法,身为著名软件工程师、AI专家的Evan Saravia也认为,研究人员只在论文中分析了RLAIF和RLHF在“生成摘要”这一任务上的表现,其他更加泛化的任务表现如何还有待观察。

此外,研究人员也没有将人工标注和使用AI成本的因素考虑在内。

其实以上网友预测未来的大模型将不再需要人类标注员,也侧面体现出目前RLHF方法因为过于依赖人工而遇到的瓶颈:大规模高质量的人类标注数据可能会非常难以获取——

大模型数据标注员往往是流动性非常高的工种,并且由于数据标注很多时候非常依赖标注员的主观偏好,也就更加考验标注员的自身素质。

短期内也许会像这位从业者说的,“我不会说这(RLAIF)降低了人工标注的重要性,但有一点可以肯定,人工智能反馈的RL可以降低成本。人工标注对于泛化仍然极其重要,而RLHF+RLAIF混合方法比任何单一方法都要好。”


返回网站首页

本文评论
腾讯将减持美团?知情人士辟谣:没有计划_美团 减持
原标题:媒体称腾讯将减持美团,知情人士辟谣:没有计划     36氪获悉,有媒体报道称,腾讯控股计划出售其所持美团的全部或大部分股份。对此,36氪从接近腾讯侧的消息人士获知,上述...
日期:08-18
东芝笔记本官网_东芝笔记本官网驱动下载
是一个专门为客户提供资讯、购买和服务的网站。东芝作为全球著名的电子产品制造商之一,其笔记本电脑在市场上也拥有着广泛的客户基础和良好的口碑。作为其电子产品产品之一,其...
日期:05-31
云计算,让人工智能更普及_云计算在人工智能中的应用
人工智能软件的“领头羊”目前有谷歌、百度、IBM、微软、SAP、 Salesforce等科技公司。如今的人工智能技术绝大多数仅用于科技行业,为这个领域带来了效率的提升、多种新的产...
日期:04-10
三星折叠屏手机去年销售近1000万台 今年目标定为1500万「三星折叠屏手机销量」
近日,三星率先发力可折叠手机市场,在全球市场已经取得了非常亮眼的成绩,接下来会进一步巩固和扩大这一优势。三星在推出Galaxy Z Flip5和Galaxy Z Fold5手机同时,预估今年可折叠...
日期:07-31
迷人又危险,年味里的烟花生意_有了烟花才有年味
声明:本文来自于微信公众号深燃(shenrancaijing),作者 | 邹帅编,辑 | 唐亚华,授权转载发布。“好久没在朋友圈看到过这么多烟花了。”刚刚过去的除夕夜,大家的一致感受是,烟花里的年...
日期:01-24
年货节快讯:苏宁侯恩龙连访多家厨卫家装企业
  南方市场,已经日益成为厨卫家装行业抢占的新高地。   最新消息,12月28日至29日,苏宁易购总裁侯恩龙带队前往广东,连访了多家头部厨卫家装企业。分别与佛山市承林家具有限...
日期:01-02
4条狼青犬咬死80多只羊 村民无故损失十多万元_狼青犬凶猛吗
河南洛阳伊滨区李村镇油赵村的两户村民遭受狼青犬袭击,导致80多只羊死亡,其中一户村民的羊被咬死63只,7只羊受伤严重。据郭先生称,经济损失约为十二三万元,目前还没有找到狗的主...
日期:03-02
德国首都柏林爆发抗议活动 德国民众呼吁解除对俄制裁「德国柏林沦陷」
抖音企业号蓝V认证【#德国首都柏林爆发抗议活动#】#德国民众呼吁解除对俄制裁#欧洲因追随美国对俄制裁步伐而遭到反噬,深陷能源危机、欧洲经济遭遇冲击,引发欧洲多国民众的不...
日期:09-10
微软为 Edge 浏览器添加 Xbox 云游戏特殊优化加成,画面表现更佳_Xbox edge
  11 月 30 日消息,Xbox 云游戏是微软订阅服务 Xbox Game Pass Ultimate 的一部分,玩家可以在手机、平板、电脑、网页等平台游玩 Xbox 游戏。   微软近日为自家的 Edge...
日期:03-24
新疆库木塔格沙漠海市蜃楼奇观  网友:又见证奇迹了「库木塔格沙漠海拔多少米」
新疆吐鲁番市鄯善县的库木塔格沙漠东南部最近出现了一幅壮观的景象,被称为“海市蜃楼”。据央视网报道,连日来,该地区持续高温,由于近地气温和高空温差较大,在一定范围内的空气湿...
日期:07-07
英国电信第四财季净利翻番至7.71亿美元(英国电信市值)
北京时间5月12日下午消息,英国电信集团周四公布了第四财季财报。数据显示,得益于节省成本抵消了下降的销售额,第四财季净利润同比翻番至4.72亿英镑(约合7.71亿美元),上一财年同期...
日期:07-27
AMD ZEN5「2024年见!AMD Zen5架构曝光:IPC性能可比Zen 4提升30%」
早在2022年,AMD就表示,Zen5架构以及代号Strix Point的APU产品将在2024年推出。此前的传言多指出,Zen5推倒重来后,将首次采用类似于Intel 12/13代酷睿的混合架构。爆料好手RedGam...
日期:02-09
Firefox 91 火狐浏览器正式发布,引入增强型 Cookie 清除_火狐浏览器禁用cookie什么意思
  8 月 11 日消息 火狐浏览器 Firefox 91 正式版发布,本次大版本更新引入了增强型 Cookie 清理,可以更好地保护用户隐私。   更新内容如下:   在 Total Cookie Protect...
日期:07-17
夸克和全能扫描王哪个好用「夸克App扫描王宣布功能升级,首推“离线模式”」
  讯 8月26日上午消息,近日,夸克App对外介绍了夸克扫描王功能升级及技术改进细节。据介绍,在AI视觉技术的加持下,夸克扫描王已经支持高清扫描、文字提取、格式转换、照片修复...
日期:09-06
Adobe发布亚太地区营销人员前景调研报告,疫情期间市场营销和广告投入不降反增
  中国,北京—2020年7月31日—Adobe(Nasdaq:ADBE)于近日发布《亚太地区营销人员前景调研报告》(Marketer Outlook Survey for the APAC Region)。报告显示,疫情期间,亚太地区...
日期:07-14
上海百事通与北大英华开启合作新篇章
  9月6日,由北京北大英华科技有限公司(下称“北大英华”)与上海百事通信息技术股份有限公司(下称“上海百事通”)联合主办的“法宝”系列商标全面和解媒体通气会暨知识产...
日期:05-09
现代汽车与网约车巨头 Grab 宣布提升合作关系:提高东南亚电动车普及率
  6 月 24 日消息 据韩媒报道,韩国现代汽车集团和东南亚最大的打车公司 Grab 宣布提升合作伙伴关系,旨在提高东南亚地区的电动车普及率。   6 月 23 日,现代汽车在一份声...
日期:11-15
精心打磨了这么久 这款5G新机请鉴赏(5G手机开箱)
  斥资数亿美金、历时5年而出的5G基带   拿过AI Benchmark全球冠军的处理器   历经千百个条目的全面评测与锤炼   历时一年完成5G主流系统设备商的IoDT测试   搭...
日期:01-01
印度5G手机「外媒:三星将开始在印度生产4G和5G电信设备」
11月28日消息,据国外媒体报道,三星除了是手机生产商之一,还是全球最大的电信设备制造商之一。今日,三星宣布将开始在印度生产4G和5G电信网络设备。据悉,三星计划在其位于印度泰米...
日期:11-30
三星半导体市值跌至全球第四,位列英伟达、台积电、博通之后
据businesskorea报道,三星电子在全球半导体市值排名中下滑至第四位,被美国无晶圆厂半导体公司博通超越。英伟达和博通等非存储器公司正在通过大规模投资和并购来扩大领土。据...
日期:07-14