您的位置:首页 > 互联网

英文训练AI大模型比中文更便宜,可为什么会这样?「ai全英文」

发布时间:2023-08-04 13:43:54  来源:互联网     背景:

声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。

如今国内市场的“百模大战”正如火如荼,无论是BAT这样的传统豪强,还是美团、字节跳动这样的新兴巨头,乃至科大讯飞等传统AI厂商都已入局。但提到AI大模型,似乎大家还是认为ChatGPT、Bing Chat、Bard等海外厂商的相关产品往往更加好用。

事实上,这并非错觉。近期牛津大学进行的一项研究就显示,用户所使用的语言对于大型语言模型(LLM)的训练成本有着密切的联系。

8月底,他在B站发布了自己的怒喵科技的第一批产品

ai英文对照

根据这一研究结果显示,按照OpenAI采用的服务器成本衡量和计费方式,让一个LLM处理一句缅甸掸语的句子需要198个词元(tokens),但同样的句子用英语写则只需17个词元。据统计,简体中文的训练费用大约是英语的两倍,西班牙语是英语的1.5倍,而缅甸的掸语则是英语的15倍。词元通常是指语料中文字存在的最小单位,但它的具体指代则是多变的,既可以是字、也可以是分词结果的词。

由于AI业界目前会使用词元来代表通过OpenAI或其他厂商API访问大模型所需的计算成本,所以也就意味着牛津大学的这项研究表明,英语才是目前训练大模型最便宜的语言,其他语言的成本则要大得多。

那么为什么会造成这一现象呢?用中文本身相比于英文更加复杂来解释显然并不科学,毕竟现代语言学是欧洲创建起来的,甚至现代汉语的语法分析原理也脱胎于西方的语法分析原理。

汉藏语系的语法结构与印欧语系相去甚远,参照印欧的屈折型语法来看以汉语为代表的孤立型语法,当然会觉得复杂。然而,词元(tokens)是以OpenA视角里中的训练成本来定义的,不是以字符来划分。而且,英文单词间是存在空格的,对英文文本处理时可以通过空格来切分单词。然而中文词之间不存在天然地空格,并且中文词是由多个字构成的,所以对于中文文本处理之前首先要进行分词。

真正导致用英文训练AI大模型成本更低的原因,是OpenAI等厂商的分词算法与英文以外其他语言的语义理解技术不到位有关。以OpenAI为例,作为一家美国公司,其团队在训练大模型时必然会选择以英语语料为起点,标注人工的投入显然也是英语系最方便,毕竟这会直接影响到大模型训练的强度和产出,也是为什么他们选择的人工标注团队在肯尼亚,而后者作为英联邦国家,以英语为官方语言、且教育水平较高。

ai全英文

AI理解不同语言不是通过翻译,而是直接学习相关语言的文本。那么AI大模型使用不同语言的能力差别又从何而来呢?答案是不同语言语料的丰富程度。此前百度的“文心一言”在内测过程中出现文生图不符实际的情况,就曾有主流观点认为,这是由于中文自然语言处理领域缺乏高质量中文语料所导致的结果。

而语料则是AI大模型的基础,生成式AI的原理大概可以总结为,通过大量的语料库进行训练,再从各种类型的反馈中进行流畅的学习,并根据需要对反馈进行整理,以建立相应的模型,从而使得AI能够对人类的问题做出相应的回答和决策。AI大模型之所以比以往的AI产品表现得更“聪明”,单纯是因为语料规模更大,比如OpenAI的GPT-3就拥有1750亿的参数量。

华为太阳能智能眼镜的专利类型

ai英文对照

“力大砖飞”其实是当下大模型的底层逻辑,在这种情况下,语料基本就决定了它们的上限。语料肯定是越多越好,但如今的事实,却是英文才是目前互联网世界中使用人群规模最大、使用频率最高的语言。在去年6月,W3Techs又一次发布的全球互联网网页统计报告中就显示,英语仍一骑绝尘,占比高达六成(63.6%)以上,俄语为第二名(7%),中文则仅有1.3%、排名第八。

当然,W3Techs的统计只包含了网站,这也是为什么占全球网民五分之一的中文互联网中,能够拿得出手的网站仅占全球网站的1.3%。毕竟由于国内发达的移动互联网生态,App才是主体,大量信息已经聚集在了各式各样的App中,并且这些信息也难很通过爬虫获取,所以也导致其很难进行准确的统计。

ai中英文对照

沃尔玛线上推广

这样的状态自然也导致了汉语语料库的匮乏,因为AI行业的惯例是使用互联网公开数据,而App里的数据则是属于运营方的,违规抓取App内数据是妥妥的违法行为。而国内互联网大厂将信息牢牢控制在自家App里,进而也导致了公开的中文语料不增反减。

不同于海外市场Reddit、Twitter这类愿意卖数据的平台,将无边界扩张思维铭刻在脑海里的国内互联网巨头,几乎每一家都在贪大求全,而敝帚自珍更是成为了各家共同的选择。既然互联网上的公开信息是以英文为主,即使国内的AI大模型训练往往也是从英文为起点,所以文心一言会出现“英翻中”的现象也就不足为奇了。

归根结底,AI大模型使用不同语言的训练成本,其实和该语言构筑的互联网生态繁荣程度呈现正相关。例如丹麦语、荷兰语等小语种使用者在互联网上留下的内容过于匮乏,就导致训练AI大模型使用它们来输出内容不光成本更高,而且效果也更差。但更加不妙的是,由于马太效应的影响,英文在AI领域的强势地位还或将会持续增强。

因此国内市场的AI大模型想要更好用,获得足够、且高质量的语料库是关键。互联互通这个已经被提出多时的概念真正被贯彻的那一刻,或许才是中文AI大模型比肩ChatGPT们的时候。


返回网站首页

本文评论
迈向高质量发展新阶段,爱奇迹接连斩获重要奖项「爱奇艺奇迹」
时代在变。曾几何时,“三来一补”时期的加工贸易大行其道,华强北的“山寨”产品风行一时。而时间斗转星移,中国制造爬坡过坎,不断向产业链价值链的上方攀爬,悄然进入“中国智造”...
日期:07-05
Anker因过热起火风险召回充电宝 相关商品国内已下架_anker充电宝爆炸
日前,充电品牌Anker安克近日发布公告,少数Anker 535充电宝(Power Core 20K)A1366可能会过热并造成火灾安全风险,官方将进行自愿召回。Anker表示,用户可以通过查看充电宝背后(见下...
日期:02-13
天猫国际双十一业绩再突破,超百万品牌新品发布_天猫双十一近三年业绩
  众所周知,双11网购狂欢节源于淘宝商城(天猫)2009年11月11日举办的促销活动,当时参与的商家数量和促销力度均是有限,但营业额远超预想的效果,于是11月11日成为天猫举办大规...
日期:09-24
破发转瞬成历史 淘米网IPO第二日逆市大涨24%_淘米 上市
  6月11日凌晨消息,淘米网(NYSE:TAOM)在纽交所挂牌交易首日跌8.56%遭遇破发已成历史。周五,在中国概念股普遍下跌的情况下,淘米网逆市大涨24.06%,股价一举突破10美元,盘中最高涨...
日期:07-30
极简设计,高度集成!itc保伦股携自主研发新品itcHUB智慧会议平板重磅发布!!!
实力进阶,乘势而上。5月26日下午,国内知名音视频系统解决方案制造商广东保伦电子股份有限公司(简称itc保伦股份)在广州总部圆满举行itcHUB智慧会议平板线上新品发布会,实现了多项...
日期:05-27
网络视频通话服务商Tango先于Skype获微软WP支持
  尽管网络视频通话服务提供商Tango的规模远小于Skype,而且并非微软嫡系,但依旧先于Skype获得了微软Windows Phone芒果平台的支持。   虽然微软最近斥资85亿美元收购了Sk...
日期:07-24
抖音修订《【鲜花园艺】行业管理规范》 增加农药准入资质要求
10月14日 消息:13日,抖音发布关于修订《【鲜花园艺】行业管理规范》的意见征集通知,征集期为2022年10月13日—2022年10月20日。修订后的规则更新了入驻要求中的定向准入类目明...
日期:10-15
涉嫌网络欺诈,蚂蚁链、阿里拍卖下架“数字亚运会火炬”交易
  9 月 24 日消息 据蚂蚁链官方发布,今天,接网友举报,蚂蚁链与阿里拍卖联手下架一起涉嫌网络欺诈的交易。   蚂蚁链表示,一位 ID 名为“街舞怪才”的用户在拍卖平台发布“...
日期:07-17
国庆不涨价的酒店「国庆度假酒店价格猛涨 你会“宅”在酒店过“十一”吗?」
  中新网10月1日电(中新财经记者 吴涛)“睡到大中午,不去逛景点,宅床打游戏,房间吃外卖,晚上去散步”,这样的度假方式越来越受年轻人喜欢,随着国庆假期的到来,很多人都想找个精品...
日期:10-02
山姆回应卖399元山寨迪奥产品:涉事商品已下架_山姆超市买到假货
9月30日 消息:近日,山姆会员商店上架的一款标注为“Dior”联名的儿童玩具被曝出是山寨产品。这款售价399元的玩具上标注着“Dior珠宝设计师”“Dior授权 山姆限定首发”的字...
日期:10-04
芬兰航空公司的机上视频介绍「芬兰客机偏航以便乘客看极光 在空中转了一个圈」
极光是一种美丽的天文景象,只能在地球南北极附近高空出现,由于太阳带电粒子流进入地球磁场引起。绝大多数人一辈子都没有机会亲眼所见。近期有报道称,芬兰航空公司的一架客机在...
日期:03-03
年入百万的付费社群,做对了这6点。_国内有名的付费社群
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。各位村民好,我是村长。对于所有做公众号、抖音、知乎等渠道的知识博主来说,付费社群是内容变...
日期:04-28
快手携StreamLake、虚拟演播助手亮相2022世界人工智能大会,宣布设立快手上海研发中心
9月5日消息,在2022世界人工智能大会(WAIC)上,快手携StreamLake、快手虚拟演播助手亮相本次大会。与此同时,快手宣布设立上海研发中心—星臻科技(上海)有限公司。资料图据悉,快手...
日期:09-05
支付宝银行存款灵活存取可以部分取出吗「支付宝大额存款需3年提取?不实」
  个人账户的高风险操作行为可能影响账户正常使用。为规避风险,用户须规范使用自己的账户,不要轻易与不明账户交易,不要把个人账户出借给他人使用,也不要进行网络刷单、跑分、...
日期:09-12
请假不羞耻!合理请假不会对不起任何人_正当合理的请假理由
3月23日消息,微博话题合理请假不会对不起任何人”引发热议。有网友在社交平台上吐槽,一到请假怕被误读为消极怠工。这位网友表示,请假不仅需要逐级报备、层层审批,还必须详细说...
日期:03-24
好莱坞最害怕的事发生了:AI独立搞出了一集《南方公园》
作者|李禾子邮箱|lihezi@pingwest.com从1997年流行至今的动画剧集《南方公园》今年3月刚刚更新完第26季,不过说起下面这集,你可能不太会有印象。卡特曼有一天从最近的好莱坞抗议...
日期:07-27
傲游浏览器CEO陈明杰:与百度联盟共成长
  浏览器作为访问互联网的主要接入口,网民使用率最高,这样强势的用户界面和入口效应,使浏览器成为硝烟弥漫的兵家必争之地,傲游就是其中一支拼杀多年的劲旅。傲游浏览器专注...
日期:07-26
亚马逊涉嫌侵犯知识「亚马逊旗下部门被控侵犯用户隐私:将支付 580 万美元和解诉讼」
据报道,当地时间周三,美国联邦贸易委员会宣布,亚马逊将支付 580 万美元就侵犯用户隐私问题达成和解。该委员会在一份法庭文件中表示,2017 年,亚马逊 Ring 门铃摄像头部门的一名前...
日期:06-02
Arm 2023全面计算解决方案发布,正式切换64位
2023/5/31 13:49 Arm 2023全面计算解决方案发布,正式切换64位  南山 C114讯 5月31日消息(南山)近日,Arm 2023全面计算解决方案(TCS23)发布,通过全新的架构设计,帮助Arm平台的全...
日期:06-01
任天堂新款Switch游戏掌机曝光 预计2024年第一季度发布_任天堂switch之后最新掌机
7月10日 消息:任天堂计划在2024年第一季度推出新款Switch游戏掌机,这无疑会让众多游戏爱好者们兴奋不已。新款Switch游戏掌机将采用定制的Tegra T239处理器,并提供多种不同时...
日期:07-10