您的位置:首页 > 互联网

AI翻译界杀手诞生!阿里国际翻译大模型吊打谷歌和GPT-4_阿里ai翻译app

发布时间:2024-10-16 14:40:33  来源:互联网     背景:

声明:本文来自于微信公众号新智元,作者:新智元,授权转载发布。

【新智元导读】AI翻译,全球大厂都卷疯了!但绿就是白光腿神这类翻译却让人啼笑皆非。就在刚刚,阿里国际发布首个商用翻译大模型,电商出海神器真来了!

果式文案一出,少不了网友的热议。

苹果iOS18官方7月更新的系统宣传语中,真的很你硬生生文案,被许多人吐槽太过抽象。

原本英文的广告语是Yours. Truly.。

但到了中文这里,则有种明明每个字都认识,可连在一起却怎么也读不懂了的感觉。

阿里翻译中心

如果从翻译的角度来看,原因主要在于语言之间存在的文化鸿沟。

与专业术语不同的是,蕴含丰富文化寓意的词语,字面翻译对于有文化背景的人来说,难以理解。

论文地址:https://arxiv.org/html/2305.14328v2

如今,随着LLM的多语言能力越来越强,也让此前鲜有进展的AI翻译赛道,突然卷了起来。

早已布局的科技大厂,以及刚刚下场的各路LLM初创,纷纷推出了自家的AI翻译产品。

DeepL表示,自家LLM的译文需要更少的编辑。要达到同样的质量,谷歌需要两倍的编辑量,而GPT-4则需要三倍

不可否认,AI翻译仍然是一个复杂领域。

基于深度学习的机器翻译,虽然对于训练过的文本语料可以游刃有余,但对于和训练文本差异过大的文本,翻译能力就会大幅下降。

除了训练数据的局限性之外,AI的上下文理解有限、也让不同语种的语言结构差异和文化语境差异等原因,也会导致AI经常给出偏差很远的答案。

就没有一款轻易上手、放心可用的高效AI翻译工具吗?

我们经过一番实测发现,在一众模型产品中,阿里国际最新的大模型产品——Marco-MT,在广义的翻译领域表现就相当亮眼,通过结合上下语义、场景、对象等,提供更加精准的翻译,结合阿里的数据优势,在电商领域尤为出色。

国产大模型,解决光腿神难题

众所周知,电商行业中术语繁多,不同领域有众多盲点,即使请专职的翻译,也很难短时间内给出最准确的说法。

举个例子,在国内卖爆了的光腿神器,怎么解释给歪果仁呢?

有人说,用现成的翻译产品不就行了?

某产品给出的结果是——Bare legs god,好家伙,光腿神可还行。

类似的翻译一个比一个抽象,要让老外惊掉下巴。

而有了Marco,我们就不会再常常遇到这种抽象的场景了。

Marco翻译大模型可支持三种方式的翻译:基于语境的产品翻译、图像翻译、实时聊天翻译。

在处理电商专有词、流行词和口语词等翻译任务时,这个模型不仅能更好地保留原意,还能立马输出简洁、准确的表达,而且非常符合歪果仁的语言习惯。

阿里翻译插件

比如光腿神器的翻译,以往的两个翻译产品分别是A magical tool for bare legs(一个神奇的光腿工具)和Bare legs god(光腿神)。

而用了Marco翻译大模型,The bare leg artifact的译法简洁精妙,老外看了都说好!

同样,绿色显白这类非常口语化的流行词,Marco-MT给出的翻译也是非常地道——Green is flattering for the complexion!

绿色是显白哦!真的很仙的裙子,洋气不过时的,比较大气的感觉,还挺显瘦的,比较适合我的风格,穿出去回头率有的哦。

相比之下,翻译1号在表述上并不是很符合当地人的习惯,尤其是make your skin look whiter这段。

内容大意:绿色让你的皮肤看起来更白!这是一条非常仙的裙子,时尚且永不过时,相当优雅,而且显瘦。它很适合我的风格,穿上它我一定会吸引很多注意力

翻译2号则更加拉跨,内容和语法完全不对。

绿就是白,时尚但不时尚,充满了矛盾的哲学……

内容大意:绿色是白色哦!真的非常仙的裙子,时尚但不时尚,更有大气的感觉,而且也很显瘦,更适合我的风格,穿出去回头率很高哦

接下来,我们加大难度。

真的是可盐可甜,穿着显瘦,拍照简直不要好看呀,太上镜了!,怎么说?

Marco率先作答:sweet and cute——甜美可爱。

翻译1号和2号则异口同声:salt/salty and sweet!(好的,有被齁到)

再来一题:

泰美辣!扎起来的时候看不出来是假发,而且发质看起来超好的,发量看起来也很多!对于短发发量少星人太友好了呜呜好喜欢!

Marco依然发挥稳定,正确地翻译出了泰美辣的意思——so beautiful。

另外两位选手的表现,倒是也在意料之中——

1号并不能get到这是什么意思,直接输出了拼音Tai Meila;2号拆开翻译成了Tammy(人名)和Spice(香料)。

再比如画风突变,西班牙语版翻译出来是这样的——

不了解西语的朋友可能看不出端倪,cambio repentino en el estilo de pintura这句话,翻译回来的意思是——绘画风格的突然变化。

可以说是驴唇不对马嘴了。

针对这些训练预料相对较少的语种,Marco-MT给出的答案——Cambio de estilo,不仅意思更加贴合原文,表达也更加native。

英文种草信达雅

性能如此强大的翻译模型,为什么出自阿里国际?

显然,这与公司在该领域的多年积累密不可分:

  • 数十亿规模的高质量电商预料数据,让团队在跨境电商领域一下子就建起了起极为显著的数据优势

  • 服务于全球市场的电商平台,让团队对不同国家和地区的文化、语言以及商业法规有了深入的了解

因此一经发布,Marco翻译大模型就在BLEU、COMET,以及人工评测指标上上,一举超越市场上的头部翻译产品。

基于Flores公开榜单数据的评测结果

将其它语言译为英语的测试中,它的所有结果均已超越行业标杆企业的产品,比如谷歌、ChatGPT、DeepL。

而将英语译成其他语言方面,也有一半语言的测试结果超过了谷歌、ChatGPT。

这么好用的大模型,用起来会不会很贵?恰恰相反!

Marco的性价比可谓拉满,100万个字符仅需12美元。

针对不同的翻译,前两者价格一致,图像翻译还更划算些。

Marco翻译大模型主要支持15种语言间的互译。

除了常见的中英,还覆盖了韩语、日语、西班牙语、法语等全球使用量最多的语种,以及乌尔都、孟加拉、尼泊尔、希伯来等小语种。

可以说,跨境电商常用语种,Marco基本实现了全覆盖。

应用场景

能够在多语种之间流畅转换,Marco也就打通了跨境电商中的两个核心场景。

内容本地化

商家上传的商品信息,包括标题、详情、属性、商品图片短语等,都能被精准翻译成目标市场语言。

根据海量电子商务数据训练后的AI,在产品标题生成上是手到擒来

另外,模型在搜索关键词和对话翻译上也表现不俗,还支持高并发调用,并且能理解电商相关知识,满足各种风格偏好。

amazfit gtr新款什么时候发布

不管买家用的什么语言,都可以靠AI丝滑地把对话翻译过去

个人文档翻译

对于个人文档翻译,Marco也能根据上下文提供高质量翻译。

译文不仅有良好的可读性,还支持不同风格,满足个人用户的多样化需求。

总之,Marco作为AI原子能力,可以轻松接入到电商商品管理、客服及搜索导购等系统中。

商家和买家都能获得自动翻译服务,沟通效率倍增,全面提升消费者触达效果。

可以说,Marco的出现,能让阿里国际的速卖通、Lazada、Trendyol等电商平台,以及外部电商类客户,比如为多平台运营商家提供服务的独立SaaS商(ISV),和对翻译效果有更高要求的跨境商家,都能提供更丝滑的服务。

背后技术

在训练Marco的过程中,阿里国际团队用了多项创新性技术。

基于通义千问系列大模型,他们进行了多语言增强训练,搭建出多语言大模型基座——Marco翻译大模型。

预训练过程中,Marco采用了多语言数据筛选技术。

比如,特别增强语种识别、多维度数据质量评估,由此,就获得了高质量、大规模多语言数据。

与此同时,通过利用多语言MoE、参数扩展方法,从而保证主导语言(如中英)性能不下降的情况下,提升了其他语种的性能。

微调阶段,基于多语言大模型基座,再利用SFT对模型翻译能力全面激活。

对此,研究人员提出了一种自动构建高质量偏好数据的方法,通过强化学习缓解LLM的幻觉问题,还提升了电商场景特有词翻译效果。

Marco翻译大模型还有两处独特的创新。

大模型驱动

首先,模型能够主动进行语义理解与内容重构,而不是简单的文字转换,从而避免了各种哭笑不得的歧义。

比如,你的宝贝正在路上,不会再被翻译成Your baby is on the way;

而且猪猪女孩,也不再会被直白地翻译为Pig girl。

这些富含特色文化且难以直译的词汇,Marco翻译大模型都能恰如其分地表达出来。

再以我太太太太喜欢这个商品了为例,一些AI翻译产品会将这句话翻译为My wife likes this product。

而在Marco大模型中,这句话非常地道地翻译为I love this product sooooo much。

情景化翻译

其次,AI翻译中融入了情境化翻译能力,这就使它能够依据特定的环境及目标受众进行智能调整。

最终呈现的效果上,不仅翻译准确无误,还贴近本土语言的自然流畅。

跨境电商ALL in AI,下一步再降成本

说来,阿里国际为什么要做翻译大模型呢?

与那些致力于模型研发、实现AGI公司不同,阿里国际从一开始就想明白了,要走AI应用落地之路。

AI成为跨境电商关键变量

2023年,人工智能作为技术全新变量,掀起了整个跨境电商行业的巨大风暴。

全球最大电商平台亚马逊,推出了AI服务平台Amazon Bedrock,让客户通过在线领先模型构建GenAI应用程序。

还有虾皮(Shopee)、Shopify等一些知名电商平台,争相布局。

作为全球最大的跨境电商平台之一,阿里国际也在全力All in AI。

去年4月,他们在内部专门成立了AI Business百人团队,并对40+关键场景进行AI测试。

中小商家们在出海路上经历的九九八十一难——语言文化壁垒、专业人才短缺、获客成本高等等,被逐一破解。

比如,AI图像编辑功能可以一键实现裁剪、背景生成、移除等功能,点击率超7%;

虚拟模特能够随意上身试穿,肤色性别任选,堪比专业影棚拍摄效果。

经过一年多的尝试,成果已经初显。

近半年的数据显示,平均每两个月,商家对于AI的调用量就翻1倍,AI的调用量已经突破日均1亿次。

更具象地说,一个在速卖通起家的Zeuslap显示器创业9年,借助AI从名不经传的小作坊,迅速成长为平台行业TOP1的品牌。

以往,他们会招聘专业美工师,从抠图、找素材、PS,一周只能做4-5套。

自从去年11月用上AI工具之后,70%以上的设计图几乎被AI承包。比如,商品banner图、产品场景图、YouTube封面图等等。

截至目前,全球超1亿件商品被AI优化,50万跨境商家用AI赚到了钱。

阿里国际之所以成绩斐然,与团队过去所攻克的研究难题密不可分。

在多语言方面,为了提升大模型多语言能力,并将其更高效地用实际任务中,多语言增强大模型MarcoPolo由此诞生。

并且,实现了更低成本更优效果。

在多模态方面,多模态大模型MarcoPolo-VL能够用眼睛精准识别,进行推荐。

还有团队最新发布的多模态大模型Ovi,直接拿下开源第一。

在ICCV2023顶会上,一向低调的阿里国际AI团队,凭借视觉-语言算法推理workshop拔得头筹。

简单讲,这与当下火热的GPT-4V多模态生成是同题竞赛。

Marco翻译大模型,大规模商用

这次,Marco翻译大模型亮相,进一步为语言文化壁垒提供了绝佳的解决方案。

这款AI翻译大模型核心聚焦在两大领域——电子商务、日常交流。

它将集成到阿里国际旗下众多跨境电商业务平台,如速卖通、Lazada、Trendyol。

此外,Marco翻译大模型还将面向全球个人用户,真正实现从专业商务到日常生活全覆盖。

试用传送门:https://aidc-ai.com/page/translation.htm#tryout

由此可见,阿里国际的AI翻译大模型有着巨大的商业化前景。

首先,它与阿里生态系统深度融合。

阿里国际拥有着天然的3亿用户出海业务,而且电商足迹遍布全球100+国家/地区,连接着数百万商家及数亿消费者。

这一庞大的生态网络预示着,仅在阿里国际内部,就拥有服务广泛用户群体和多样化应用场景的广阔舞台。

其次,AI翻译服务并不局限于阿里生态之内。

团队成员们积极向外扩展,让Marco翻译大模型触及更广泛用户群体、商业实体。

因为,外部的生态才是一个潜力无穷、规模惊人的市场空间,尤其是全球新兴市场的需求。

阿里国际AI国际在最受欢迎TOP20使用国中,约半数未发展中国家。

那么,全新的AI翻译大模型也将赋能这些国家的中小企业(SMEs),帮助它们跨越语言障碍,高效开展全球业务。

未来,阿里国际还将持续投入,扩展语向的数量,提升更多不同场景下的翻译质量。

最重要的是,进一步降低用户的使用成本。

在阿里国际看来,AI+跨境电商只是迈出了第一步,AI之于电商最大的改造,应是做到降本增效的极致。

向前一步,可以看到AI会颠覆电商用户交互、购物形态。

向后一步,AI将会重塑整个电商供应链,甚至上从根本去改变搜、推、广的商业模式。

AI将为跨境电商的未来带来种种可能,让我们拭目以待。

参考资料:

https://aidc-ai.com/


返回网站首页

本文评论
重磅:最新中国5G主设备市场份额出炉「国内5g市场」
重磅:最新中国5G主设备市场份额出炉 通信产业网|2023-06-12 09:45:00作者:高超来源:通信产业网【通信产业网讯】(记者 高超)日前,总价约77亿元的备受关注的中国移动2023年至2024年...
日期:06-12
功率上限从50W提升至80W,手机无线充电新规今日起施行_手机大功率无线充电
9 月 1 日消息,工业和信息化部于 5 月 30 日印发《无线充电(电力传输)设备无线电管理暂行规定》(下称“新规”),新规将手机无线充电功率上限从 50W 提升至 80W,今日(9 月 1 日)起正式...
日期:09-01
被国家网信办依法约谈处罚,微博:诚恳接受主管部门批评,认真落实整改要求
  12 月 14 日消息,今日上午,新浪微博就“被国家网信办依法约谈处罚”一事回应称,微博站方诚恳接受主管部门批评,认真落实整改要求,坚决履行好主体责任,不断提升生态治理水平。...
日期:10-09
半年连推7款产品,AI时代字节也能大力出奇迹吗?_字节ailab怎么样
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:辛童,授权转载发布。在过去一年,字节跳动旗下多个团队接连推出了7款基于 AI 的产品,分布对话、工具、互动剧情等多个类...
日期:02-14
神秘超新星,哈勃视角中,竟然同时出现三次
一颗超新星的三个不同历史时期同一颗星,魂穿三日,影像同现夜空这是哈勃拍下的一个巨大星系团,周围环绕着同一颗超新星在三个不同的历史时期留下的三个黯淡的影像。这颗超新星发...
日期:11-30
软银“大瘦身”:愿景基金裁员幅度或达30%,高于外界普遍预期_软银愿景基金领投
  记者/李京亚  在软银单季经历毁灭性亏损之后,负责投资的愿景基金部门裁员幅度可能高于外界想象。  北京时间9月29日晚间,彭博社援引知情人士消息报道,软银集团预计将对...
日期:10-04
腾讯股价创历史新高 马化腾身家增至565亿美元超越马云(腾讯市值4万亿)
10月27日 消息:今天上午,腾讯股价在盘中创下历史新高,截至发稿,腾讯股价涨4.01%,报价584港元,目前总市值达5.6万亿港元(超7200亿美元)。而腾讯创始人马化腾的身家也随之飙升。据福...
日期:08-07
中国科学家首次在月球上发现新矿物“嫦娥石”「嫦娥三号在月球上有什么科学发现」
【环球时报-环球网综合报道】9月9日,中国传统节日中秋佳节前夕,国家航天局、国家原子能机构联合在京发布嫦娥五号最新科学成果。国家原子能机构副主任董保同在发布活动上宣布,...
日期:09-11
有卖家因制作捏捏致身体不适闭店 专家:甲醛浓度可能超标
一种名为“捏捏”的慢回弹解压玩具在网络上迅速走红,其硅胶材质和模仿美食的外形深受年轻人喜爱。然而,这种玩具存在安全隐患,专家指出其甲醛浓度可能在短时间内飙升近80倍,对健...
日期:05-22
年轻人挤爆旅拍:摄影师月入6万,提前数月预约_摄影师旅游景点收费吗
声明:本文来自于微信公众号 Tech星球(ID:tech618),作者:王琳 翟元元 习睿 陈桥辉 林京,授权转载发布。在敦煌鸣沙山月牙泉裙裾飘飘,反弹琵琶,仙气茫茫;在西安大唐不夜城身着汉服,远...
日期:06-27
魅族21 PRO成世界第一个开放硬件的手机:对所有大模型开放_魅族的开发者模式有什么用
快科技2月29日消息,今晚魅族发布新旗舰手魅族21 Pro。专属装备如果出的话有多少人退游魅族表示,魅族 21 PRO的O”,是智能手机时代的句号,也是一个新时代的开始。魅族21 PRO不仅...
日期:03-01
智谱AI升级大模型商业化能力,帮9岁小学生出书、和AI罗永浩谈心_智谱·ai
【】6月5日消息,码字这事儿,没有最卷,只有更卷!现在,已经有9岁的小学生借助AI仅用1个月时间就写成了一本科幻小说!在智谱AI Open Day现场,北京小学生许萌萌分享了自己在智谱清言的...
日期:06-06
邬贺铨:互联网半甲子,大模型新风口_邬惕予简介
通信世界网消息(CWW)近日,中国工程院院士邬贺铨在业内会议上发表演讲并指出,今年是中国全功能接入互联网的第30个年头,正是“半甲子”的重要节点。在波澜壮阔的科技发展历程中,互...
日期:01-11
亮度飙到3000尼特!苹果最强“表皇”Apple Watch Ultra 2预售: 6499元
快科技9月14日消息,在近日举行的苹果秋季新品发布会上,iPhone 15系列正式与我们见面,同时,苹果还带来了旗下全新最强智能表皇”Apple Watch Ultra 2。据了解,Apple Watch Ultra 2...
日期:09-14
对全球旅游业前景保持乐观 携程集团2023年Q1净利34亿元-梁建章_携程旗下旅游公司
【】6月8日消息,携程集团公布了截至2023年3月31日的第一季度未经审计财务业绩。财报显示,2023年第一季度,携程集团净营收为92亿元人民币(约合13亿美元),同比增长124%,环比增长83%,超...
日期:09-25
森海塞尔携手京东共推重磅新品 正式发售“曜金黑”MOMENTUM 4无线耳机
森海塞尔联合京东,在中国首 发全新曜金黑MOMENTUM4 无线耳机,经典优雅的新配色为这款耳机添加了新活力。森海塞尔于 2022 年 8 月首 次发布MOMENTUM4 无线耳机,其出色的声音表...
日期:09-11
工信部:经过重点整治,主要互联网企业开屏信息“关不掉”基本解决
  10 月 19 日消息,据国务院新闻办网站发布,工业和信息化部新闻发言人罗俊杰表示,整治开屏弹窗信息,对开屏弹窗信息“关不掉”“乱跳转”,用户一直反映强烈,经过半年多的重点整...
日期:07-17
用于在印销售及出口,消息称特斯拉提议在印度新建电动汽车工厂
据媒体援引知情人士消息,电动汽车制造商特斯拉公司周三向印度政府官员提出了在印度建造一座电动汽车工厂的计划,旨在制造电动汽车供该国国内销售和出口。对此,特斯拉表示不予置...
日期:09-28
游隼月球着陆器因故障放弃登月, “月球葬礼”会黄吗?|国际观察
封面新闻记者 陈甘露据美国有线电视新闻网(CNN)当地时间8日最新消息,发射不到24小时,美国航天机器人技术公司(Astrobotic)研发的“游隼”月球着陆器遭遇“严重”的燃料泄漏情况,宣...
日期:01-09
刘韵洁院士:数字经济对网络提出更高要求,迫切要求网络架构做出变革
6月30日消息,中国工程院院士、紫金山实验室主任刘韵洁在C3安全大会·2023上表示,数字经济新业务、新需求、新挑战,对网络提出更高要求,迫切要求网络架构做出变革。“确定性网络...
日期:06-30