您的位置:首页 > 互联网

AI数据告急,大厂盯上廉价年轻人

发布时间:2024-09-04 02:14:18  来源:互联网     背景:

声明:本文来自于微信公众号字母榜,作者:字母榜,授权转载发布。

为了拿到新数据、训练AI大模型,字节等互联网大厂正在亲自下场,以单次300元不等的价格招募“AI录音员”,定制语料库。

坐落于北京大钟寺的字节办公楼,集中了字节的抖音业务团队和火山引擎业务团队,从年初便开始招募素人为豆包大模型录音。两人结组、单次3小时,包括80分钟的自由聊天,有提示词的60组对话,单次结算金额为300元。

长达3小时的录音,有至少2名字节员工全程陪同。“对话不能水时长,要有内容和信息,质量太差会酌情扣款”,“不能修改提示词,大模型理解不了”。从晚上6点到9点,字节员工在录制过程中的指令,则更多透露着对于录音质量的关注。

实际上,成都、太原、贵州等二线城市,早已成了字节、百度、阿里等大厂的AI数据外包之城。“去年,数据标注、方言朗读,专科生就能做。现在招的都是211、985的实习生带外包。”某大模型产品经理表示。

在9月刚刚推出视频大模型的MiniMax,其创始人闫俊杰告诉字母榜,在上海,除了语料公司的高质量数据之外,MiniMax也会采购一些平台化数据。

数据、算法和算力是AI大模型的三大支柱,其中数据是大模型进行训练的根基。但由于互联网数据散布在不同平台,并被重重壁垒所环绕,AI大模型可以用来训练的公开数据正在走向枯竭。

6月,研究机构Epoch AI发布了一项新研究预测,可用于AI语言模型公开训练的数据,将在2026年到2032年间,被科技公司耗尽。而早在2023年5月,OpenAI首席执行官阿尔特曼便公开承认,AI公司在不久的将来会耗尽互联网上所有的数据。

如何寻找高质量的新数据“喂养”大模型,成了所有AI大模型团队的共同难题。

由于存在擅自使用第三方数据的嫌疑,一些大公司屡屡陷入纠纷。8月,OpenAI被超过100位YouTube主播集体诉讼,指控其擅自转录了数百万个YouTube 视频来训练大模型。英伟达、苹果、Anthropic等巨头也涉及其中。

对于大厂而言,拥有自己的闭源高质量数据,才能保证喂养大模型的数据时效性和质量。而跳过品控不稳定的第三方平台,试图亲自下场为AI写“剧本”,或许是大模型厂商们的一条新路子。

A

今年初,在小红书等平台上,悄悄出现了标价300元一次的AI录音兼职。

华硕zenfone8值得入手吗

相比起BOSS直聘等平台30-55元时薪的AI录音兼职,300元单次、录制地在北京大钟寺的所谓“头部大厂录音兼职”显得颇具诱惑力。

8月,通过微信被拉到录音群内时,字母榜(ID: wujicaijing)发现群内已经有了200多名等候录音的人。由于规定为2人一组录制对话,时间长达3小时,进群后,“找搭子”“有人和我一起录吗?”的微信消息弹出的最多。

而实际上,300元一次,做AI录音员,“给AI写剧本”并不轻松。

首先在录音前,所有人都必须上传一段2-3分钟的对话录音做“样音”,字节的审核人员要通过样音的效果来决定是否通知兼职录音。而这个过程会有3名员工负责审核,其中2名员工审核都通过,才能直接预约录音时间,如果不通过,还有交叉审核。

在样音二审过后,张雪在提交样音的第二周预约了晚上6-9点的录音时间。而在群聊内,不少人都被卡在了样音环节,“审核老师喜欢能聊的,爱聊的。”情绪高昂的对话,内容有主题,让更多的人卡在了筛选的第一道门槛。

图注:大钟寺录音群

图源:字母榜截图

录制当晚,张雪隔着录音室的透明玻璃坐在椅子上,调节到语音能够被清晰录入的最佳位置,通过耳机收听字节员工的指令。

第一个环节,就是两人80分钟的无主题自由聊天。而字节人员的要求,则是聊天不能是“片汤话”,要有内容,同时每个话题都不能超过10分钟,并且不能出现大段大段的独白,要保证是相对平均的对话状态。

张雪和搭档在录音室内隔着巨大的头麦对谈,尽量不停顿地谈话80分钟。同时,还要尽量克制身体不能乱动,发出咳嗽声、笑声等扰乱录音质量的声音。

为了保证语音质量,字节人员通过耳机不时插入,提示出现了杂音要重新录制,或者聊天“不自然,引导痕迹过重”,也要重新录制。高质量语音的标准是聊天自然、话题连续,情绪积极但不能抢话,还要有内容、不流水账。经过反复重调,第一个环节就花费了近2个小时的时间。

而到了第二个环节,要录制有提示词的60组对话。尽管有了剧本可供参考,但作为AI录音员,张雪不仅要根据情境编对话,还要保证严格的对话模式,即上一组对话是A结束收尾,那么下一组对话必须由B开始。

同时,为了适应大模型的调试需求,每一次的指令都必须清晰明确地说出提示词,“可以详细一些吗?可以更详细一些吗?可以再详细一些吗?”而在耳机内,字节人员也明确表示,剧本都可以改,但只有提示词不能动,换个说法,AI就可能难以识别。

为了保证录音质量,录音不清晰、吞字或者情绪不足,都会重新录制。等录制结束,张雪离开大钟寺,时间已经走到了晚上近10点。而一次3小时的录音,字节人员一天要录制3场,每周的日程几乎都是满的。

除了北京,字节已经在上海、杭州、重庆、南京、成都、天津等多个城市招募录音员。

B

对于渴求新数据的大模型厂商们来说,“砸钱拿数据”的操作并不新奇。

塔吊扶墙超过5米长,怎么办

2023年,随着AI大模型成为新风口,大厂们不仅直接通过第三方公司购买数据,也创造出了“大数据标注师”、“AI编辑”等外包岗位。

2023年,小语种专业的阿琳,在考研期间就通过BOSS直聘等网站,开始为大模型“打工”。

通过一家叫做“X数据”的公司,阿霖为大模型图片识别的文字内容做验收,即检验大模型图片识别后的小语种文字是否与图片一致。按照“一个词或一句话算一个核算框,一个框算1毛钱”的价格,核算几百条,阿霖一次能赚几十元。

到了今年,阿霖同样通过第三方的数据公司接单,做翻译类的 AI 数据标注,价格涨成了1元多一条。但要人工判断大模型翻译出的法语等小语种是否准确,标注员不仅要找出错误之处,还要用不同的颜色,对5-6个大模型的翻译内容进行标注。“有时看一条得花10-15分钟”。

为AI打工之后,阿霖也发现,这些大模型,一旦脱离了原本小语种的教科书语料库,对于社交平台新的用词,或者小众人群的惯用词,即自身的数据库没有收录,大模型就开始降智,“受限于版权,学不到新的文本内容,翻译效果也受影响。”

除了第三方外包公司,大厂也建立起了自己的数据基地。

例如,百度的数据基地分布在如南昌、阳泉、太原、贵州等非一线城市,并在这些城市完成数据标注、方言朗读等数据的采集,只需“招一些当地的专科生,会操作电脑就行。月工资也往往在3000-5000元之间。”美团也早就有了自己的驻厂AI训练师。

不过,相比起舍得砸钱的大厂,大模型四小龙们想要拿到高质量数据,难度高了不少。

“核心的闭源高质量数据,往往都已经被大厂垄断,AI创业公司,甚至是AI四小龙,都可能只能拿到边缘数据。”某大模型厂商的算法人员Leo告诉字母榜。

由于高质量数据能够显著提升模型效果,因此,在开源的公开数据数据之外,大模型厂商们为了实现技术迭代,需要更高质量的数据完成训练。但这些数据往往被大公司把握,如国内的新闻数据掌握在腾讯、字节等大厂内部,海外则由Common Crawl、GDELT、The Pile等占据。

在海外,即便是YouTube,也在6月底宣布,将向顶级唱片公司提供许可协议,以换取版权音乐用于训练。OpenAI 一直在与 Politico、《大西洋月刊》、《时代》、《金融时报》等新闻出版商达成付费协议,使用并引用它们的新闻资料。

当关键数据主要掌握在“渠道方”内部,比如腾讯、字节和Meta等公司,关键用户数据早在移动互联网时代被瓜分完毕,要想实现技术突围,AI四小龙首先就得交一笔不小的“数据费”。

C

对于厂商们来说,行至大模型创业下半场,“大数据幻觉”也是大模型集体降智、测不出9.11和9.9哪个大的原因之一。

当字母榜在MiniMax的海螺AI内输入“一个小女孩怀里抱着一只布偶猫”,耗时2分钟,生成的6秒视频内,小女孩抱猫咪的手指细节丰富,只是怀里抱着的,并非是一只布偶猫。

面对生成结果,MiniMax的视频大模型员工解释,“这是因为用于训练大模型的数据,在猫咪的绑定图片里,并没有布偶猫。”

当模型生成的内容与现实世界事实或用户输入不一致,即大模型出现幻觉,开始“胡说八道”。对于渴望新用户的大模型厂商而言,生成效果显然决定了产品是否有机会出圈。

“输入的指令是提取8月所有娱乐新闻,结果AI生成的是2019年8月的娱乐新闻内容。”在使用某头部大模型产品时,忠实用户孔昉已经抓到了好几次AI“胡言乱语”的瞬间,或是编纂出根本不存在的引用文献,或是不能理解近两年的新概念,这让孔昉对大模型产生了信任危机。

现在,孔昉会同时用2-3个不同厂商的大模型“跑”同一个问题,然后交叉对比,对于时间、数量、文献等关键信息,也会通过搜索引擎二次确认,“现在AI生成很像抽卡,效果不可控,而且还容易智障。”孔昉无奈道。

而高质量数据或将逐渐耗尽,想要解决“大模型幻觉”问题,拿什么数据来“喂养”大模型,显然颇为关键。

某接近百度的人士告诉字母榜,大模型厂商们都会通过三方公司直接购买数据,省时省力但并“不省事”,就是因为购买来的数据,无论是文本、录音还是视频,质量都是不可控的。

对于积极发展B端客户的头部大模型而言,针对某个客户,更个性化地定制大模型成为如今大厂AI业务主要的收入来源。但想要训练出这样个性化的模型,就需要相应高标准筛选下的数据来“喂养”,甚至根据不同阶段大模型的学习效果,进行数据需求的调控,“不是随便买一堆语音来,大模型就能学会的”。

在某三方数据工作做过AI翻译的阿霖也发现,“作为提供数据的甲方,她所在的公司似乎并不真的关心大模型生成的语音质量。”

对于专攻法语、西班牙语等小语种的阿霖来说,她需要为甲方同时对比5-6个大模型将小语种语音翻译成文字的生成效果,但只需要粗略得打分,对于生成的5-6份文字,到底有哪些细节的语言差异,能够如何改进,三方公司并不会询问,“漠不关心”。

而缺乏高质量数据,或许也正是不少用户表示“用哪家的大模型生成的内容都差不多”的原因,也正是用户一旦“一家大模型收费,就直接换另一家”的根因。

对于用户而言,宣称追赶OpenAI,在技术上持续迭代的国产大模型,或许并无实质差异,也谈不上成为忠诚用户,这也给急着商业化的大模型厂商们蒙上了一层淡淡的阴影。

因此,即便亲自下场“为AI编剧本”费时费力又费钱,字节也趟出了一条新路子。而可以预见的是,为了解决商业化和用户拉新的关键问题,大手笔咬牙“买数据”,恐怕将成为大模型厂商们的新赛点。

(文中阿霖、孔昉、张雪为化名)


返回网站首页

本文评论
腾讯刘杉对话清华陶晓明,探索语义通信与视频编解码跨领域合作新方案
近日,在腾讯全球数字生态大会“Techo前沿技术论坛”上,腾讯杰出科学家、腾讯云副总裁、腾讯多媒体实验室总经理、腾讯视频智能创作与内容平台部副总经理刘杉博士,与清华大学电...
日期:10-11
小米停车监控模式怎么开启「小米SU7停车拍照怎么用?会拍摄几个方向?官方详解」
快科技7月26日消息,有小米SU7车主好奇:如何打开停车拍照功能?会拍摄几个方向的照片呢?全国软件业务收入平均增速为对此,小米汽车官方进行了详细解答:进入车辆设置 安全与服务中找...
日期:07-26
兄弟们退钱了!迈阿密中国行主办方今天开启退款_国际足球_新浪竞技风暴_新浪网
兄弟们退钱了!迈阿密中国行主办方今天开启退款  北京时间3月18日,迈阿密中国行主办方今天发布公告,开启退钱流程!  退款时间表:2024年 3月18日开始,通过官方票务平台Klook购票...
日期:03-19
华硕 破晓「以技术创新打造绿色产品,华硕破晓Air“碳”究绿色可持续发展」
4 月 12 日,主题为“可持续·共未来”的 2023 英特尔可持续发展高峰论坛于北京举办。论坛现场,英特尔公司CEO帕特·基辛格发表了“携手共创可持续的未来”的主题演讲,他表示要...
日期:04-14
ipad2018侧面「苹果再次妥协:iPadOS 18开放侧载」
快科技6月25日消息,苹果正式上线iPadOS 18 Beta 2,在新版iPadOS中,苹果在欧盟开放侧载。和iOS侧载情况类似,苹果允许用户在iPad上使用第三方应用商店,允许使用第三方支付、第三方...
日期:06-25
苹果智能人工智能叫什么「苹果 iPhone 15 选择直观的人工智能应用 而非生成式 AI」
9月14日消息: 2023 年技术产品的推出已经变得可预测:现在所有产品都配备了生成式人工智能功能,可以提供健谈且知识渊博的文本或惊人的图像。本周 iPhone 15 的发布显示出苹果...
日期:09-14
灵动按摩头+四区热敷 优惠价259元荣耀亲选温热多向颈部按摩器G6开售
  11月1日,荣耀亲选温热多向颈部按摩器G6正式迎来开售。该产品自发布以来,凭借可移动按摩头、四区包围式热敷、折叠式设计等功能优势,吸引了众多消费者的喜爱。尤其是每天长...
日期:07-17
美图旗下美图秀秀、Wink上线“AI建模脸”功能「美图秀秀美图ai功能在哪」
7月18日 消息:近日,美图公司旗下美图秀秀及Wink上线“AI建模脸”功能。据悉,“建模脸”是指长相标准符合大众审美,五官比较立体,类似CG动漫人物的脸型。Facebook市值首破万亿美...
日期:07-18
追觅扫地机怎么样「追觅洗地机H20 Ultra旋锋版,多项首创技术搭载,助力技术普惠之路」
智能清洁工具是现代生活的象征之一,但面对纷杂的环境智能清洁工具在和用户生活交融的同时也会产生一些问题,洗地机作为智能清洁工具的重要分支,自然也不可避免,例如毛发缠绕滚刷...
日期:08-01
抖音吸粉500万,线下万人成团,这届导游在玩一种很新的旅行社_抖音导游网红
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:松露,授权转载发布。寺庙游爆火后,越来越多的年轻人涌向了普陀山。这座位于浙江舟山东部的海岛,面积只有11.82平方公里,却是中...
日期:06-03
华为nova 12 Ultra参数出炉!业内人士:备货千万 对友商销量有巨大影响
快科技12月23日消息,博主数码闲聊站曝光了华为nova12Ultra的详细参数。具体而言,华为nova12Ultra采用1.5K等深四曲屏,覆盖昆仑玻璃盖板,前置6000万800万双摄,后置主摄是5000万像...
日期:12-23
小米pro14开箱「小米14 Pro真机外观曝光 11月提前发布」
今早小米14 Pro的外观渲染图被曝光,展示了其背部造型设计,他此前就曾提前放出小米 13 Ultra渲染图,准确率高达90%,小米14 Pro基本延续了当前小米13 Pro的设计,依然是方形的摄像模...
日期:06-17
财经时间专访张朝阳「对话张朝阳:从“报春鸟”到“物理网红”,互联网信仰不变」
创始人、董事局主席兼首席执行官、物理学博士 张朝阳出品|科技作者|杨锦物理课一晃眼讲了两年,但张朝阳自己说,这课,才刚刚开始。在11月8日-10日举行的2023世界互联网大会期间,面...
日期:11-10
荣耀笔记本 新品发布「荣耀笔记本618大促开启!荣耀MagicBook 系列多款产品放量优惠」
今年的 618 年中大促比往年来的都早了一些,这对于有选购笔记本需求的消费者着实是一个好机会,特别是对于学生群体,以及荣耀以及华为生态的用户来讲,荣耀最 新推出的高性能轻薄本...
日期:05-27
stable diffusion关键词指南 一文读懂stable diffusion提示词写法思路
如果您希望使用Stable Diffusion生成令人惊叹的图像,那么来对地方了。在本指南中,我们将探索制作优质提示的艺术,这些提示将在使用AI图像生成器中发挥最佳作用。废话少说,一起来...
日期:04-24
加强创新、研发!华为新年首发债 总额30亿元:去年达210亿元_华为发行30亿债券
华为投资控股有限公司17日发布公告,为支撑各项业务发展和关键战略落地,公司拟发行30亿元中期票据,将用于补充公司本部及下属子公司营运资金。发行总额30亿元,发行利率3.45%,期限5...
日期:01-18
库克接手苹果市值「库克准备玩球了?消息称苹果欲493亿元收购曼联俱乐部」
苹果的产业八竿子跟足球都没有关系,然而世界杯期间不可思议的新闻出现了苹果考虑收购曼联。据报道,苹果CEO库克被曝考虑出资69亿美元(约合493亿人民币)收购著名的俱乐部曼联。如...
日期:11-27
「童」享一点甜,领峰贵金属爱心赞助乐善「糖」甜心行动
 领峰贵金属爱心赞助九龙乐善堂年度慈善筹款活动——乐善「糖」甜心行动2023。领峰用实际行动传递关怀的种子,在这个春天,我们与乐善堂一起「童」享甜蜜,将爱意分享给有需要人...
日期:05-12
周鸿祎追星刘德华紧张到结巴:不知道要说啥_周鸿祎 综艺
快科技1月31日消息,今日,360集团创始人周鸿祎发了一段微博视频,视频中他提到,自己要和刘德华在2月1日晚上6点进行直播对话,他很紧张不知道要说啥。视频中他说;我的偶像刘德华最近...
日期:01-31
重庆女子上班坐14次扶梯获公司补贴888元引热议:网友感慨太体贴_重庆 扶梯
重庆的确是打工人的天堂啊,通勤浪费时间也会补偿。近日,重庆一女子因到公司上班需提前早期乘14次扶梯,被公司补贴888元引发热议。据悉,该公司附近地铁站高低落差近40层楼,导致员...
日期:11-03