您的位置:首页 > 移动互联

英特尔携手百度飞桨,共探AI赋能文化传承之路_英特尔和百度合作

发布时间:2023-02-26 12:26:41  来源:互联网     背景:

  语言是人类进行沟通交流的表达方式,其储存着丰富的文化信息,传承着民族血脉,也支撑着文明的发展与演进。然而,一些少数民族语言、方言却正在无声无息地消失,与之密切相连的地域文化、历史文化也正面临濒危风险。

  “大约平均两周就会有一种语言消亡“,联合国教科文组织的这一调查数据让人触目惊心,且世界上正在使用的约6,000种语言,至少有43%面临濒危。而在中国,也有25种语言使用人口已不足千人。

  抢救濒危少数民族语言对保持汉语的丰富性、多元性,保护文化记忆、文化基因意义重大。因此,中国早在2015年就启动了语言资源保护工程,借助田野调查,建立起庞大的口语语料库,保存了原始声音文件和国际音标标注等丰富素材。

intel百度

  然而,仅仅依靠这些单语数据,研究者难以获知其背后所传达的语义,无法有效开展相关学习与研究,更罔论留存这些少数民族濒危语言与背后地方文化的生命力。

  人工智能技术为复活这些语言,挖掘多元文化价值,传承璀璨的历史文化,提供了新思路和新手段。2022年国际母语日也将“利用技术促进多语言学习:挑战与机遇”作为主题,指出了技术对推进多语言教育以及文化传承与保护的作用。

  百度飞桨深度学习平台携手英特尔,基于第三代英特尔® 至强® 可扩展处理器进行深度优化,通过完善的模型压缩方法和量化加速技术,支持全自动生成大规模“汉语-少数民族语言”双向词典,对用技术帮助保护濒危少数民族语言,推动民族互通互融,做出了积极探索,展现了“科技向善”的现实意义和历史价值。

英特尔和百度合作

  采用百度飞桨深度学习平台,全自动构建大规模双向词典

  构建双向词典项目,采用了规模大、范围广、语种多、内容丰富的濒危语言博物馆馆藏源语料库,语料全部来自于田野调查与实地采集。

  通过分析,项目研发人员选取了中国少数民族语言中的独龙、尔苏、嘉绒、撒拉这四种数据较为丰富的语言作为实验对象。

  为基于百度飞桨实现对齐算法,项目团队首先开发了民间故事汉语数据集。开发过程中,充分利用飞桨PaddleOCR开发套件识别精度高、推理速度快等特性,对跨度8年的《故事会》杂志扫描样本进行数据化处理,构建出规模达950万字的文本数据集,也是全球首个民间故事汉语数据库,且具有很强的口语化风格,适合与少数民族语言语料进行对齐。

英特尔和百度合作

  然后,实施低资源词向量训练,应对四个少数民族语料句子数量普遍不足五千条的挑战,以及《故事会》语料小于二十万条句子的问题,为下游的双语对齐提供了强有力的支持。

比亚迪MPV计划

  继之,依据拓扑特征,对两种语言的词向量进行旋转和对齐,实施双语词典自动化抽取,最终导出了独龙、尔苏、嘉绒、撒拉这四种语言和汉语的双向词典。

  目前,这四部双向词典已在中国社科院民族学和人类学研究所志愿者的协助下,进行了内部评测,仅发现含有少量误差。这一可喜成果,验证了基于百度飞桨深度学习平台,智能生成大规模汉语-少数民族语言词典的可行性和便捷性,展现了人工智能对于应对语言濒危日益严峻挑战的高效性和高价值。

  英特尔与百度飞桨软硬协同优化,用智能探索文化保护新路

  双向词典项目依托飞桨深度学习技术,高效实现了濒危语言词典的自动化生成,极大减轻了语保工作者的负担。而其背后是英特尔所提供的英特尔® 至强® 可扩展平台具备的强劲算力和多种优化措施,为飞桨平台高效支撑项目运作提供了基础能力和量化加速。

  业界尽知,人工智能应用不仅需要高算力作为支撑,而且源于大多数深度学习模型使用32位浮点精度(FP32)构建,复杂度高,模型参数量大,限制了其在一些场景和设备进行部署,需要实施软硬结合优化,才能突破性能瓶颈,高效承载诸如上文双向词典生成等多类应用。

小米充电宝30w无线充

英特尔和百度合作

  针对上述问题,英特尔携手百度飞桨,基于第三代英特尔® 至强® 可扩展处理器、英特尔® oneAPI工具套件等软硬件组合,在为飞桨平台提供充裕算力的同时,也对整个深度学习流程实施全方位优化,帮助加速各类应用开发和量化部署。

  第三代英特尔® 至强® 可扩展处理器依托出色的微架构,发挥多核心、多线程和大容量高速缓存等特性,很好地满足了飞桨平台对通用算力的苛刻需求,同时加持以其内置的英特尔® AVX-512提供的增强矢量处理能力,提升AI 推理和训练效率,为图像分类、自然语言处理、语音识别、语音翻译等广泛的应用开发和部署提供稳健基石。而最新一代的第四代英特尔® 至强® 可扩展处理器更内置一系列加速器,包括全新的AI加速器——英特尔®高级矩阵扩展(英特尔®AMX),覆盖包括训练和微调在内的更多深度学习使用场景,可以为不断变化且要求日益增高的应用提供更为可观的计算性能。

  为满足模型快速“瘦身”之需,百度飞桨打造了PaddleSlim深度学习模型压缩工具库,以及为用户提供灵活的压缩策略,而英特尔® 至强® 可扩展处理器内置的AI加速技术--英特尔® 深度学习加速(英特尔® DL Boost),可通过矢量神经网络指令(VNNI)充分提高计算资源和缓存的利用率,减少潜在的带宽瓶颈,为INT8等低精度计算提供优化支持,显著加速AI 推理。由此,帮助飞桨PaddleSlim所支持的量化训练和静态离线量化方法,更好地适用于计算机视觉(CV)和自然语言处理 (NLP)等模型优化过程,这无疑也为双向词典AI方案的开发提供了便利,同时提高了项目运作效率。

英特尔和百度合作

  同时为激活 VNNI 加速功能,百度飞桨深度学习平台在量化方案实施中还广泛使用英特尔® oneAPI 工具套件,如英特尔® oneAPI 深度神经网络库 (Intel® oneAPI Deep Neural Network Library,英特尔® oneDNN)。借助其统一、简化的编程模型,飞桨用户得以在CPU、GPU和FPGA等不同的架构上方便地调用通用接口来使用平台内置的AI加速技术,而无需担心平台兼容问题。

  得益于英特尔® 至强® 可扩展平台与多项优化工具的支持,百度飞桨深度学习平台实现了深度优化,并不断丰富模型资源及应用开发套件,为用户提供了优异的模型及硬件加速体验。而双向词典项目在推动少数民族语言保护领域展现的神奇魔力,就是其典型案例。

  “十四五”规划把“强化重要文化和自然遗产、非物质文化遗产系统性保护、推动中华优秀传统文化创造性转化、创新性发展”,作为提高社会文明程度的重要举措;今年的工作报告也强调了“传承中华优秀传统文化,满足人民日益增长的精神文化需求”,对铸就文化新辉煌的重要作用。

  英特尔携手百度飞桨践行“科技向善”,优化开源平台,促进濒危语言保护,不仅延续和发扬了语言背后蕴含的文化、知识遗产及其价值,更探索出智能技术赋能的新路;也是英特尔继用人工智能助力长城修缮,通过计算、存储、网络全栈优化解决方案帮助云冈石窟文物保护等,持续展现创新技术对挖掘与传承璀璨历史文化、实现创新创造的新动能的又一成功实践,有助于在让历史智慧照进未来,让宝贵文化遗产丰富人们精神世界的同时,进一步加速人工智能的拓展应用,助力拥抱数字化浪潮,创造更美好的生活。

  更多内容,欢迎注册观看:https://s2.uao.so/434f30bb

  *图片由云图视觉提供授权


返回网站首页

本文评论
易现EZXR受邀参加5G-Advanced双链融合无线创新成果发布会
  易现EZXR创始合伙人虞崇军就元宇宙入口参会发言  12月22日,易现EZXR创始合伙人虞崇军受邀出席了中国移动和华为联合举办的“5G-Advanced双链融合无线创新成果发布会”,...
日期:07-25
一个低音炮就能实现立体声?——极米投影的超强配件_极米投影声音大
  想要一个完美的家庭影院,不光要有一个画质效果出众的好投影,更要有好的声音效果。  但是布置一个5.1声道的音响系统,不仅需要提前埋线,更新迭代时还要换线,蓝牙音箱又免不...
日期:07-25
天猫博世家电官方旗舰店_博世家电联合天猫超级品牌日 全域营销引领“百种精致生活”
  近日,博世家电首次联合天猫超级品牌日,携手品牌大使张钧甯发起全域营销大事件,通过系列线下创意体验活动,以及博世真实用户在线分享,共同记录展示博世家电为大众带来的...
日期:07-14
相比海信激光电视丝毫不落下风,峰米激光电视是如何做到的?(峰米激光电视对比海信)
  近两年,激光电视抢了不少液晶电视的风头。作为新时代年轻人组建智能家居生态的重要组成部分,激光电视受欢迎的程度非常高,以海信激光电视和峰米激光电视为首的激光电视产品...
日期:01-23
玄武云上市答谢会华南站 | 共研智慧快消 共探韧性增长
  消费品行业正经历一场新的蜕变。  《2022中国快消品产业年度报告》指出,数智化转型正在引领快消品产业发展,传统的快消品品牌商、零售商、经销商等都要经受一场数字化升...
日期:10-10
芒果TV老挝国家电视台、云数传媒达成三方战略合作 加速互联互通国际大通道建设
  8月30日下午,在2022中国新媒体大会“塑造可信可爱可敬中国形象”国际传播论坛上,芒果TV与老挝国家电视台、云南无线数字电视文化传媒股份有限公司正式签署战略合作协议,推...
日期:09-03
云片:技术赋能通讯创新升级,破圈才能突围
  1992年12月的一天,沃达丰的一位工程师发出了人类历史上第一条短信,这条短信仅包含15个字符“MERRY CHRISTMAS”。2021年12月,这条具有里程碑意义的短信在法国最大的独立拍...
日期:07-14
Cocos 厦门沙龙圆满落幕,最新3D引擎版本带来稳定体验
  12月18号,由 Cocos 引擎、亚马逊云科技、网易易盾联合主办的Cocos 开发者沙龙·厦门站圆满落幕。本次沙龙 Cocos 引擎向现场的超200名开发者们介绍了最新上线的 Cocos Cr...
日期:07-25
全新国风武侠!西山居《剑侠世界3》8月10日正式公测_剑侠世界3手游西山居官网
  亿万剑侠齐聚,共襄江湖盛事。今日,西山居新一代剑侠情缘手游《剑侠世界3》宣布8月10日开启全平台公测!《剑侠世界3》继承剑侠精髓玩法,历经多番研发打磨,今日公测亮点抢先曝...
日期:07-25
四维图新自动驾驶解决方案ADS获凯翼汽车定点_四维图新成凯翼汽车自动驾驶系统定点供应商
  近日,四维图新获凯翼汽车定点,将以Tier 1身份,依托自身自动驾驶解决方案ADS能力,为凯翼汽车提供包括域控制器开发、软硬件设计在内的面向下一代车型的完整多级别自动驾驶解...
日期:07-29
开机无广告!这款OPPO电视让智能家居生活更精彩「oppo电视 app」
  近年来,在智能家居市场风口和时代红利之下,越来越多品牌布局智能家居产业。尤其是智能电视领域,不少品牌看好电视在家居生活中的重要地位,纷纷推出智能电视产品,希望以点带面...
日期:09-28
星环数据库介绍_星环科技多模数据库“一库多用”支持10种数据模型,上榜Gartner报告
  面对数据量井喷、业务融合多样化等挑战,出于数据库与数据库之间的不兼容,为了避免复杂操作性、有效降低实现成本等目的,一个面向数据层面的一站式服务平台——多模数据库—...
日期:10-13
版本更新|杉岩MOS上新!这次会有哪些惊喜?
  近日,杉岩数据发布杉岩MOS海量对象存储全新版本V6.5。新版本针对客户需求,在成本优化、性能及可靠性提升、便捷管理及数据价值利用等多个维度进行了重磅升级和优化,有效提...
日期:07-28
汇聚欧中科技创新高端资源 打造可持续发展多边合作平台_第五届亚欧科技创新合作论坛
  9月2日,由中国创新创业成果交易会办公室主办,在广州市增城区海外联谊会的指导和支持下,由ECI欧中科技创新中心(比利时)、欧中科技(广州)有限公司承办的“2022中国创新创业...
日期:09-05
5次蝉联,海信洗衣机再次斩获2022德国iF设计奖
  日前,有“设计界奥斯卡”之称的德国iF设计奖,公布2022年评选结果,海信智能护理洗衣机凭借其独特的使用性创新方式和外观设计,从全球众多品牌与产品中脱颖而出,获得2022年德国...
日期:07-14
颜值担当,华硕天选高性能台式电脑京东正式开售_华硕天选笔记本开箱
  9月29日,华硕天选高性能台式电脑抢在十一假期来临前在京东正式开售。作为华硕天选系列的首款台式电脑产品,此次华硕天选高性能台式电脑在外观方面下足了功夫。全新的设计...
日期:07-27
2022OPPO开发者大会小布助手来炸场,小布元空间令人惊喜?
  8月30-31日,OPPO ODC22即将拉开帷幕。作为大会的重头戏,OPPO小布助手在微博释出2022年度版本的升级内容五大看点,将在8月31日 14:00小布元空间发布会上逐一揭晓,精彩不...
日期:08-30
北京移动倾力打造“中国移动冰雪卡”回馈客户 超多权益福利不容错过
  “请问有没有可以短期办理的电话卡呢?我因为工作项目来中国出差,但只待两三个月。”  “这种情况,我推荐您选择这款时效灵活,到期自动失效的 ‘中国移动冰雪卡’,而且流量...
日期:07-25
探索海外发展新增量,华为HDD·耀星领航出海峰会广深站邀您参加!
  近年来,中国企业出海进程不断加速,海外移动互联网竞争也日趋激烈。面对复杂多变的海外市场,新入局者如何抓住出海新机遇?已出海企业又将如何突破现状,寻找发展新增长点?ebay...
日期:12-22
海尔生活家电全球峰会召开 环境链群、护理链群高位布局场景生态
  1月12日,以“新形象 新赛道 新格局”为主题的2022海尔生活家电全球峰会在中国青岛盛大开幕。会上,作为海尔生活家电重要链群的零微科技(海尔环境链群)、零立科技(海尔护理...
日期:07-30