您的位置:首页 > 互联网

单件3分钱,那些喂养大模型的人

发布时间:2023-10-19 19:50:43  来源:互联网     背景:

(头图为AI制图)

干了一天,就赚了路上的油钱

“人工智能时代的赛博螺丝工”,凯凯这样形容自己的数据标注员工作。

她在一家东北三线城市的小公司工作,这里的工作环境还不错:办公地点在写字楼里,有格子间工位和电脑,颇有“科技公司”的味道。入职时公司说,这份工作“没有门槛”,她接的第一个项目,就是给自动驾驶的图像“拉框”添加标注,其中有2D的街道图,也有来自激光雷达等的图像,后者是三维的,由密集的“点”构成物体的集合,称为3D点云图。

图像标注的要求其实并不复杂:标注时要区分照片的颜色,或者对图像中出现的人和物体进行分类。标注员按照轮廓拉方框来框出对象,并标注它们的各种属性,比如这是汽车、这是云朵、这是大树等。

这听起来很简单,但凯凯认为,这也不是个轻松的活儿。图像中的情况错综复杂,比如交通繁忙的路口,行人和车辆密密匝匝,看得人眼花缭乱;动态图往往是连帧的,有变道的车会被物体遮挡,也需要标注员进行联想,一个一个地找到、标注出来。

尤其是3D点云,图像是由一个个点组成的,边缘上的物体很容易被漏掉。有的被挡住的车几乎看不到,但大多数公司规定,只要超过10个点的物体,就必须画框。数据标注的容错率一般在95%以上,也就是说,一个标注员拉上100个框,至少有95个要是准确无误的,否则就会被打回来返修。而在很多公司,正确率要求现在都达到了98%-99%。

分辨这些非常耗神,坐得时间久了,腰酸背痛不说,“费眼睛”更是所有人的抱怨。

一般人提到人工智能(AI)从业者,脑海里最先浮现的往往是北上广大厂里的程序员,他们做的是写代码、迭代算法等“高大上”的工作,月薪动辄上万。但在金字塔底端的,却是这些来自三四线城市的数据标注员们。

数据、算法、算力,是实现AI的三要素。为了让AI能够“睁开眼看世界”,数据标注是基础的工作。数据标注员们将各种没有固定格式、规则的非结构化数据,处理成AI能够理解的特征。这些需要处理的数据根据场景的不同,包括语音、文本、图像、视频等,对应着AI认知世界不同的能力。

像凯凯做的图像标注,就是通过在图上框出行人、汽车轮廓和标签,注入AI训练的模型,自动驾驶汽车才能识别出周边的各种物体。“喂养”一个AI模型需要至少几十亿的数据样本,这背后就需要标注员们靠着双手一个个作出标注。

早在2015年左右,随着第一波人工智能浪潮的兴起,国内数据标注行业也迎来发展。经过几年的积累,在河南、山东、山西、河北、贵州、安徽等省份的三四线城市里,已诞生了大量的数据标注员。

对于这些从业者的数量,目前还没有权威的统计。在国内,AI数据服务商龙猫数据是知名的众包平台之一,在其上已经拥有了超过500万注册用户。如果说数据是AI金字塔的基石,那么这批数量庞大的数据标注员们,就是搭建它的蚂蚁雄兵。

这个群体目前以大专生、兼职的大学生、在家想赚些零花钱的宝妈们为主。他们一般在当地线下的数据标注公司和基地工作,或是通过线上众包平台、社交工具上拉的标注群在线接活儿。

绝大多数标注员们的收费模式是计件。数据标注公司相对规范,会和标注员们签订合同,提供底薪,额外完成工作量公司会计件提成。在线上,有项目时,负责人会发布任务的内容、规范和报名的通知,给参与的标注员们计件付费。

oppoa17哪一年出的

一般公司提供的底薪在2000-4000元之间,但计件的单价并不高。前几年还有几毛钱,现在普遍已经降到了几分钱。像凯凯拉一个框,2D的图3分钱,3D的是5分钱。曾从事过这个行业的AIGC公司HEARD创始人蒙太奇估计了下,普通标注人员平均月薪,基本会在3000元左右。

晓妍是名机械专业的大学生,她在老家安徽的一家数据标注公司做了一段时间,底薪有3000元。她拿出刻苦学习的劲儿来,一天干满8小时、每周单休,一个月下来拿到了3200元。

在三四线城市,晓妍这样的收入还算可以了。“这比一般办公室工作要累,但比纯体力劳动还是要轻松的。”但她也特意强调,最好不要在线上做——在线上接活儿往往没有底薪,项目也不稳定,达不到量的话,收入就会很低。一位湖南的标注员在社交平台上晒出了自己的结算单,一天内她拉了700多个框,一个单价4分钱,总共是30元零两毛。“干了一天,也就赚个路上的油钱。”

标注员做得熟练了,一小时也能拉上几百个框。一般做到了3个月,公司就要开始向上加量。但返修也是家常便饭。比如凯凯一个标注车位的项目,线画得长了、漏标了,质检时每次总能挑出毛病,返修了四五次才改完一张图。这也意味着,可能你花了一个小时的功夫,到手的只有几毛钱。公司每次接的项目也不一样,往往刚熟悉了一个,下一个就换了,规则和质检要求也跟着改变,结合起不高的单价,就很容易让人烦躁。

在相关贴吧里,不少公司贴出的招聘要求里都说,干这份工作“带手来就行”。但换一个角度看,这也意味着,这份工作中没有挑战、没有新鲜感。很多公司管理上也比较严格,不允许员工上班时接听电话,手机要放到储物格里。但在电脑前枯坐几个小时,只有一遍遍的机械式画线、拉框,这样的重复性劳动往往会带来精神上的疲惫感。在这种状态下,标注员们就忍不住去思考,做这份工作带来的价值和意义。“我觉得,我妈妈来也可以做。”有标注员曾吐槽说。

这也让很多公司很难留住人,尤其是年轻人。凯凯认为,尽管和AI挂钩,但这仍然还是个电子流水线式的工作,“没有什么前途”。晓妍也觉得,学生兼职还不如去做家教,“在这里,你是大专、中专还是其他学历,有什么分别?”

她们在各自的公司都只做了不到两个月,就决定不干了。而这,也成为数据标注员们的常态。

每年都会看到大批公司倒闭

单价压低的背后,晓妍说,是因为很多项目尤其是线上的,已经“不知道转过几手了”。这也和整个行业的商业模式与现状息息相关。“做的人多了,现在已经太卷了。”

在2023年,大模型卷起了人工智能的新浪潮。据天眼查信息,今年1月-10月,人工智能行业新增了72.2万家相关注册企业。而市场对此的认知是:不管是什么应用,只要是用到AI,就必然会对数据标注有需求。

资本的反应也说明了这一点。国内一二级市场上,相关公司在今年上半年都出现了一轮估值高涨。A股上的数据标注龙头海天瑞声,在春节后开市就迎来了一个涨停板。到了今年3月底,海天瑞声股价涨幅超过300%。

但是,海天瑞声股价飙升的同时,其盈利能力也在面临挑战。根据2023年上半年财报,公司营收7446万元,较去年同期下降35.13%;净利润亏损1724.14万元,扣非净利润亏损2310.46万元,分别较去年同期减少了188.76%和380.40%。

在2018年完成Pre-A轮融资4年后,去年年底,自动标注公司星尘数据再度获得5000万元的A轮融资。今年上半年,凯望数据、整数智能、柏川数据、曼孚科技等相关公司都相继拿到了融资。

新的中小团队也不断进入,试图在这个市场中淘金。一家来自内蒙古的创业者去年也投身入这一领域,在当地,有数据基地提供办公空间,也有政府的补贴和扶持,一年内,其团队就扩张到了300人。

热闹的背后,如何拿到项目,成为小公司们必须要解决的首要问题。

数据标注行业基本采用的是分包模式,由甲方企业发标,其他数据服务商进行竞标。各类科技企业、AI公司、车企等是甲方企业;处于中间位置的,是头部数据服务平台以及大公司的数据标注服务部门,它们能够独立承接订单,有的还有自己的数据标注基地;再下面就是星罗棋布的中小团队,包括人数从几十人到上百人不等的数据标注公司、3-5人的小作坊,还有线上的个体从业者。

数据标注仍然是个劳动密集型的行业,注定是低利润的。“主要靠堆人工。”蒙太奇告诉市界,可以说是大部分的小公司支撑起了这个行业。由于进入壁垒不高,获取客户的能力是团队立足的关键。但能够获得甲方尤其是大公司项目的,往往是业务能力够强、对行业有足够了解的服务商。之后,大部分项目还是会继续向下分包到不同团队手中。由于不少项目对团队规模有要求,在众包平台上,小团队和个人组成了“公会”一起接单;掌握了渠道的中间商,则在其中赚取差价。

“知名的接单公司都在北上广深,外包团队在三四线城市。”一位从业者说。这种模式下,经历了多级分包、层层抽佣,项目单价也被一路压低。等到了接活儿的团队手里,往往单价也被压到了只有几毛钱。给普通数据标注员们的价格自然也就压缩到了几分钱。

对于中小团队来说,订单是不稳定的。“所有的项目都是周期制的,一个项目完成了,客户那边接不上,是常有的事;或者突然之间项目没预算了,就不得不面对人员的变动;到最后,利润极其微薄。”蒙太奇说。

大模型的热度对行业本是利好,但也加剧了竞争。一位在今年入局的河南创业者感慨说:“这一行对于新入坑者并不友好。”

“现在价格被压低,项目量也少了。”另一位河南数据标注公司创始人老张说。他已经从业5年,目前拥有50人左右的团队,在这个行业里也算是久经风浪了。

“从我开始做,每年都会看到大批的同行业公司倒闭。”老张说。市场里也存在不良竞争,“有人打压价格,也有无良商家欺骗甲方。”他说,这是个最“磨炼人心性”的行业。要想做下来,只能靠坚持。

但对于数据标注业来说,挑战还刚刚开始。

他们的工作,将要被替代

大模型出现后,行业对从业者的要求,正在变得更高。

云测数据总经理贾宇航告诉市界,对于行业大模型训练,首先需要大量行业垂直数据去做预训练,接下来则需要进行微调工作,例如需要大量的问答对数据(即包含大量问题和答案对的数据集),可以帮助大模型去做到进一步的优化、迭代,再去进一步适应其使用场景。当完成了微调之后,还需要进行评测和联调。其中,数据标注的质量对于模型训练就非常关键。甲方对于容错率的要求,也比以往要更高。

最典型的变化就是,标注员不再没有门槛了。

“对于从业人员,按照积累的程度和要求,是会逐渐地出现分层的。”贾宇航说,“像法律或者金融、医疗等行业,也将需要有一定的学历背景或者从业经验才行。”

一位外包领域的业内人士也表示,比如图片类内容审核,要求标注员有中专、大专学历即可;但文字审核相对来说,一般就会倾向于大专学历;但到了更高难度的行业,比如说金融类数据的编辑、处理,以及一些英文文本的审核,可能就要本科学历才能胜任。在大型的人力外包公司中,数据标注人员的在岗时间也延长了,可以做到3-5年。

今年8月,百度智能云与海口市政府合作共建了国内首个大模型数据标注中心,其中拥有数百名专职大模型数据标注师,本科率已达到100%。

在互联网招聘平台上,不少公司发布的对兼职数据标注员招聘信息中,也要求应聘者具有本科学历,工作地点在一、二线城市,日薪在100-250元/天不等。

▲(招聘软件上的部分数据标注员招聘信息截图)

小型公司也感受到了行业的变化。“甲方提出的要求越来越高了,我们人员的技能也要提升。”老张说,“GPT大模型的数据标注,低于本科水平的人很难从事这一岗位。还有英文文本标注,需要对英语高级别的要求。”他的团队成员中,目前最低学历也是统招大专,覆盖了文学、计算机等专业。“不能盲目招聘,重点要放在培养人上。”

第二个变化是,被人类标注出的数据训练出来的AI应用,也逐渐应用到了数据标注场景。AI公司中,商汤科技宣称已经在智能驾驶领域应用大模型自动标注技术;今年4月,海康威视在其财报会议上也提到将AI技术用于自动化标注,并称标注数量能提升10倍。

训练AI的数据标注员们,也在面临一个迫在眉睫的问题:在未来,他们的工作,是否会终将被AI所代替?

前述外包领域业内人士提到,大模型应用后,大厂在数据标注外包方面的投量(投放的物料量/需要审核的原始数据)发生了变化,大约下降了40%-50%。但与此同时,“审核的难度也相对更高了”。

自动驾驶一直是数据标注的大头。对于它所需要的图像拉框等操作来说,目前的学历和经验要求还是比较宽松的。但这块领域也在被大模型进占。

在今年4月的一次活动上,理想汽车创始人李想表示,过去公司一年要做大概1000万帧的自动驾驶图像人工标注,请了很多外包公司,一年的成本接近一个亿。但是当理想使用软件2.0的大模型时发现,应用其进行自动化标注,过去需要用一年做的事情基本上3个小时就能完成,效率是人的1000倍。

数据服务商们用自动化标注来替代人工,成为业界的关注重点。行业终将从劳动密集型向技术密集型转化,已是共识。

在今年3月,星尘数据上线了自动化标注平台Rosetta3.0平台。发布时,星尘数据创始人、CEO章磊曾介绍说,新平台在自动化标注和数据闭环上成果显著,数据处理准确度接近100%。

数据服务平台的服务模式也在进行升级,向着AI工程平台方向进化。今年9月,云测数据在去年发布的“AI工程化数据解决方案”基础上进行升级,发布了面向垂直行业大模型的AI数据解决方案,通过以集成数据底座为核心的数据标注平台,为行业大模型提供从持续预训练、任务微调、评测联调测试到应用发布的全流程数据服务,来满足大模型迭代的数据需求。

贾宇航表示,云测数据主要满足行业场景化需求,主要聚焦在自动驾驶、智能AIOT、智慧金融和智慧城市这四个行业。“对行业作出预判,快速适应算法的成长,做好积累和研发;同时关注成本效率,提升准确率的同时,做到成本合理,就能为企业建立壁垒。”

同时他也认为,对于人工标注的需求并不会消失。“随着人工智能行业的发展,人工标注的数据量还会持续增长,是离不开人工的,人力未来还将更多地参与到算法校验的环节中去。”贾宇航预测,“未来可能会逐渐演化成为人工标注、自动标注以及自动标注之后的人工审核三部分。”

但粗放式的小公司、小作坊们的淘汰赛已然开始。“现在的趋势是自动化和半自动化,行业不会有太多机会了。”蒙太奇说。他认为,对于数据标注员来说,及时转型成为大模型的Prompt工程师(提示词工程师),也是一个方向。

老张也对行业进行了思考。大厂在近年来纷纷自建基地,老张说,对行业中的公司也肯定是有影响的。“但实际上,建基地的费用比起外包来,应该也会更高。”他认为,只有建立良性的管理运营体系,培养和留住员工、争取更多的AI公司项目,才是生存下去的方向。他为公司制定了岗位规章制度和新人培训流程,并且决定全员持股分红。“甲方项目我们不外包,也不采用市面上常见的计件方式。有些项目价格低,公司宁愿原价+补贴给到员工。”

“自动化标注代替人工的时代,是早晚要到来的。没有一个行业会免于受到科技带来的冲击。我们现在要做的,就是努力为接下来的冲击做好准备。”他说,“谈梦想之前,首先要活下来。”

(凯凯、晓妍为化名)

作者 | 杨 洁

编辑 | 孙春芳

运营 | 刘 珊

2020比亚迪新磷酸铁锂电池


返回网站首页

本文评论
三星 GDDR7 显存介绍:带宽和密度可达 GDDR6 两倍_三星gddr6显存能超多少
IT之家 12 月 5 日消息,三星上个月介绍了最新的内存方案,并表示 8.5Gbps LPDDR5X 和 GDDR7 存储芯片正在路上。现在,Ian Cutress 博士介绍了有关未来 GDDR7 显存的部分技术规格...
日期:12-12
宇信科技推出金融行业大模型应用 包括CodePal、DataSherpa等_宇信科技业务
10月17日 消息:宇信科技宣布在金融行业落地大模型应用方面取得了突破进展。他们推出了四个应用级产品和一个开发平台,分别是开发助手 CodePal、金融数据安全分级分类助手 Dat...
日期:10-18
联想一体机b300_联想一体机B300 E6500/4/500HD5450
联想一体机B300是联想旗下一款非常优质的产品,它是一款面向家庭和办公室用户的一体机。这款一体机集成了一台高性能的电脑和一个大尺寸的LED液晶显示器,外观简洁大气,非常适合...
日期:05-31
腾讯第二季度本土市场游戏收入318亿元 同比下滑1%(腾讯游戏 市场份额)
京东数字科技控股有限公司陈生强 查看最新行情   讯 8月17日下午消息,腾讯控股今日发布2022年度第二季度财报。财报显示,该公司第二季度营收1340亿元,同比...
日期:08-18
华为智能辅助驾驶ADS 2.0发布:“有图无图”都能开「华为自动辅助驾驶」
4月16日,快科技消息,2023华为智能汽车解决方案发布会今日上午举行,华为智能汽车解决方案BU CEO余承东发表演讲。余承东介绍,此次发布会上,华为将首发高阶辅助驾驶ADS 2.0、鸿蒙智...
日期:04-16
小度百万的_百度又一个“王牌”小度提出破圈,激发行业新思考
京东plus会员兑换全品类券百度地图发起护航什么意思 5g汽车概念股华为手机怎么使用谷歌服务框架spotify有歌词的地区阿里京东决战的农村电商渗透率仅7%, 巨大潜力待挖掘!...
日期:07-14
林志玲宣布结婚,高德语音包下载创新高(林志玲语音包文件)
  6月6日,林志玲发布微博,宣布结婚消息。消息一出,微博一度宕机,“林志玲结婚”,“林志玲导航语音”等关键词霸占微博热搜。尤其是与林志玲强关联的高德导航语音包成为大家讨...
日期:01-08
巨魔2.0版本即将推出 苹果iOS17.0.1重大漏洞被修复-开发者_巨魔改版之前
来源:中关村在线近日,一位名为开发者 opa334 的用户向苹果推荐用户不要升级到 iOS 17.0.1/16.7 更新,并暗示巨魔 2.0 版本即将发布。据悉,巨魔是一个永久签名的非越狱 App,允许用...
日期:09-24
京东开放平台公布2022年11.11预售活动规则「京东2021年双十一预售时间」
10 月 11 日消息, 2022 年京东开放平台11. 11 预售活动规则公布,本规则适用于2022 年京东11. 11 活动期间参与京东开放平台预售活动的商家。具体来看,预售活动时间: 2022 年 10...
日期:10-27
成功将通信技术试验卫星五号发射升空「探索出卫星研制新模式,试验十五号卫星发射取得圆满成功」
2022年9月25日6时55分,试验十五号卫星搭载快舟一号甲运载火箭,在太原卫星发射中心点火升空,卫星准确进入预定轨道,发射取得圆满成功。试验十五号卫星由上海航天八院抓总研制,主要...
日期:09-26
中国邮政储蓄银行:将清理非“银联”标识绿卡(邮政储蓄绿卡纳入全国银联银行卡联网联合)
  2 月 8 日消息,今天,中国邮政银行发布《关于开展非“银联”标识绿卡清理工作的公告》,公告指出,为保障用户账户与资金安全,中国邮政储蓄银行计划对未进行换卡、清户的非“银...
日期:07-17
快手 汽车「快手推出“快看新车计划” 累计超1000位新车创作者参与」
10 月 8 日消息,近日,快手汽车启动“快看新车计划”,该计划是快手汽车针对新车内容建设推出的专项扶持计划,面向新车领域创作者提供一系列内容扶持、流量激励及创作者服务。同时...
日期:10-26
蓝汛CHN-IX 为中国互联网增效减负
  谷歌网络利用率97%,在蓝汛将IX引进中国前,这个成绩是中国互联网遥不可及的高峰。谷歌全球97%的带宽都是免费获得,这一事实更是颠覆了很多中国互联网从业者的三观。现在,蓝...
日期:11-06
rtx3050显卡功耗「RTX 4090功耗冲上450W 该用什么电源?NVIDIA解释来了」
NVIDIA日前发布了RTX 4090及RTX 4080 16GB、RTX 4080 12GB三款显卡,性能比上代显卡翻倍,DLSS 3及RTX光追加成下甚至有3-4倍性能,当然代价就是功耗也增加了,RTX 4090的450W功耗比...
日期:09-27
禁止竞争对手使用必应数据库支持AI工具-微软发出警告_必应是一款全球著名的搜索引擎,但它不能实现英文搜索
最近,微软因据称威胁搜索引擎竞争对手而引起了一些争议。据悉,微软最近在与谷歌和其他搜索引擎竞争时,采取了一些不公平的竞争行为。华硕天选2最高配置乳胶床垫有甲醛吗据悉, 微...
日期:10-05
快乐第一!2011最值得期待娱乐软件TOP3(最火软件站开心娱乐)
  回首过去的一年,PC软件的发展尽管有众软件之间的口水战,让过亿用户电脑沦为战场的阴影;不过整体而言,我们也应该看到更多优秀的软件,不管是应用软件还是娱乐软件,都在2010年...
日期:07-25
苹果损失两员大将:在线零售商店主管、首席信息官都将离职「苹果零售总裁」
凤凰网科技讯 北京时间11月1日消息,知情人士称,苹果公司负责在线零售商店和信息系统部门的两名顶级高管即将离职,这将给该科技巨头的两个关键业务部门带来变化。知情人士称,苹果...
日期:11-04
罕见:苹果状告Corellium侵权案输了,“虚拟iPhone”不侵权
  原标题:罕见!苹果状告 Corellium 侵权案输了,“虚拟iPhone”不侵权,以后安卓也能用上 iOS 系统?!   是谁触动了苹果的神经?   被苹果发起诉讼的这家公司名叫 Corellium...
日期:07-16
144亿柔宇科技_柔宇科技:“自主可控”价值几何?
  众所周知,在目前的大环境下,自主可控达到了前所未有的高度。对于“一芯一屏”这样的大国重器急需重点突破,必须主动严防易被“卡脖子”的硬核科技领域。非常时期采用非常...
日期:07-16
Apple Watch累计销量2.29亿块 去年销量5390万块_iwatch销售量2020
Watch Faces 是一家市场调查机构,它最近公布了一份数据,显示苹果 Apple Watch 在2022年的全年销售额达到了5390万只,这是首次超过5000万的成绩。自从2015年首次亮相以来,Apple W...
日期:06-14