您的位置:首页 > 互联网

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

发布时间:2020-06-19 17:33:20  来源:互联网     背景:

  在国际自然语言处理领域颇具影响力的百度,再传捷报,再度夺冠。2019年8月12日,MRQA 2019阅读理解国际评测落下帷幕。得益于自研开源深度学习平台飞桨(PaddlePaddle)的强势助攻,百度以平均 F1 值72.55%,超出第二名近两个百分点的绝对优势获得冠军。同时,在全部12个测试数据集中的10个上均排名第一。

  本届评测吸引了来自苹果公司、艾伦人工智能研究院(AI2)、哈工大讯飞联合实验室、香港科技大学、富士施乐等全球知名企业和高校研究院所队伍的参与,高手如云。

  MRQA 2019阅读理解国际评测最终榜单百度排名第一

  MRQA全称是Machine Reading for Question Answering,即问答阅读理解。问答阅读理解是自然语言处理领域当前最热门的研究方向之一,已成为评估机器语言理解能力的重要方式,也是搜索引擎和对话系统等行业应用中的关键技术。第二届MRQA workshop(MRQA 2019) 将于今年11月在自然语言处理领域顶级学术会议EMNLP 2019上举办。本届研讨会在Research Track的基础上,设立了一个新的问答阅读理解评测。与以往仅聚焦于单个数据集的阅读理解评测不同,本次评测主要有两大挑战:

  首先,本次评测包括训练集和测试集共18个阅读理解数据集,覆盖面广,综合难度高。针对语言理解所应解决的不同挑战,评测从多个角度考察了阅读理解模型理解语言的能力。从数据源角度看,其文档来源是多样化的,包括百科、新闻、搜索结果、电影、生物医药甚至演讲脚本。从应用任务角度来看,评测不仅包含了面向问答设计的数据集,还包含了面向信息抽取、语义解析等任务设计的数据集。此外,从语言理解的能力来看,评测除了包含传统的抽取式问答数据集,还包含了多个需要推理和计算的数据集。本次评测可谓机器阅读理解的“十项全能赛”。

  本次评测的18个数据集

  更重要的是,本次评测要求参赛队伍仅可使用6个数据集训练一个统一的阅读理解模型,之后在其它12个分布各异的数据集上测试模型效果。更困难的是,测试阶段中有6个在训练阶段完全没见过的未知来源数据集。数据集分布的巨大差异和测试数据来源的完全未知为参评系统带来了极大的挑战。这样的评测设置重点考察了阅读理解模型的泛化能力。模型的泛化能力通俗来讲就是模型对未知数据的预测能力,它是机器学习模型最重要的性质之一,决定了模型是否真正具备实用性。能够解决好该问题,意味着模型具有了一定的通用能力,在实际应用中面对不确定的数据,也能够达到可用的效果。

击败苹果、AI2等多支强队 百度拿下MRQA 2019阅读理解国际评测冠军

  百度D-NET通用“预训练-微调”模型训练框架

  针对上述问题,百度在本次评测中提出了一个通用的“预训练-微调”模型训练框架D(ecathlon)-NET。目前,“预训练-微调”在自然语言处理领域已成为一种新的、被广泛采用的学习范式,即首先在大规模无标签语料上以语言模型为目标进行预训练,然后再针对特定任务,如阅读理解进行针对性的微调。百度提出的D-NET框架主要包括以下优势:

  在预训练阶段,采用了基于飞桨深度学习框架中的多种预训练模型,融合了多种预训练模型的优势,获得了比官方基线更好的效果。

  在微调之前,D-NET引入了针对更多领域数据的进一步预训练,以提升模型在特定领域上的适应性,弥补预训练模型语料分布的局限性。

  在微调过程中,D-NET采用了基于飞桨多任务学习框架进行多任务学习。在多任务学习的过程中利用了其它有标注的自然语言处理数据集(如自然语言推断、段落排序等)学习更好的语言表示,从而提升模型的泛化能力。“预训练-微调”学习范式在微调阶段的一个问题是容易发生灾难性遗忘。因此,D-NET在微调过程中引入了防止灾难性遗忘的机制。

  在微调结束后,D-NET使用飞桨知识蒸馏框架提升单模型效果,以满足本次评测对模型效率的要求。

  D-NET能在本次评测中获得第一,得益于飞桨(PaddlePaddle) “多,快,好,省”的四大优势:

  “多”:飞桨提供了多种预置的预训练模型,方便开发者仅使用几行代码,即可调用各种预训练模型。正是得益于飞桨中的多种预训练模型库,D-NET融合了各种预训练模型的优势,获得了更好的效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP

  https://github.com/PaddlePaddle/ERNIE

  “快”: MRQA2019技术评测的一大挑战是要处理大规模的阅读理解数据。飞桨的高性能分布式训练框架,帮助开发者可以通过仅仅的几行代码,即可让模型进行分布式训练。值得一提的是,为了克服多节点之间通信带来的性能瓶颈,飞桨从梯度压缩,动态混合精度训练,梯度同步算法等方面进行了多项性能优化,使得训练大规模复杂模型的多机加速比提高至77%,极大地缩短了MRQA2019评测策略调研的周期,提高了实验的效率。

  项目地址:https://github.com/PaddlePaddle/Fleet

  “好”: D-NET的一个核心思想是让模型同时从不同类型的语料、不同的自然语言理解任务中进行学习,并将学习到的知识融会贯通,达到举一反三,增强泛化能力的作用。开发多任务学习最大的痛点就是要灵活地调度参数和任务。为此,飞桨开发了一套针对多任务学习场景的高级库PALM(PAddLe Multi-task,预计在Paddle Fluid 1.6版本中开源,敬请期待),让用户只需要开发几十行代码,就可以轻松完成不同模型间参数和任务的调度。

  “省”: D-NET夺冠的另外一个秘密武器就是飞桨提供的高性能预测引擎和模型压缩库PaddleSlim。PaddleSlim提供了丰富高效的模型压缩算法,可以在不损失预测精度的前提下,通过剪枝,量化,蒸馏等算法,将多个复杂神经网络压缩至一个简单网络,从而提高预测速度并降低显存消耗。除此之外,飞桨还针对不同硬件资源的特点在底层进行了一系列的优化,进一步提升了模型在预测部署时的性能和效率,使得D-NET在最终结果提交阶段,在有限的时间和空间内,可以集成更多复杂模型算法,提升模型在真实预测部署场景的精度和效果。

  项目地址:https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

  机器阅读理解任务,是衡量机器理解人类语言综合水平的重要方式。MRQA阅读量理解评测取得的进展,将有力推动机器阅读理解技术的发展。同时在产业中,机器阅读理解是构建问答和对话系统的关键技术之一。百度机器阅读理解技术已广泛应用于百度内外,包括搜索、小度音箱等一系列产品中,为数亿用户提供精准问答。

宏碁新蜂鸟fun11代i5

自动驾驶技术排名2021


返回网站首页

ipod绝版了吗

格力造汽车吗


汽车金融新闻资讯

自动驾驶融资情况

aigou盘好用吗

5G全速进化 iQOO Pro新机发布会倒计时三天
中国移动:5G标准并非一蹴而就,Rel-17已启动技术布局

阿里巴巴最新股价港股


返回网站首页

本文评论
在每一帧都如幻化般唯美的《侍神令》里,任何细节你都不该错过
  虽然2021刚开年,但想必不少“阴阳师”的粉丝们已经按捺不住了。作为最火爆手游改编的电影,《侍神令》还未上映就赚足了眼球和话题,浓郁的东方色彩将为这个新春带来一丝别...
日期:07-16
iPhone不送充电器被巴西扣压数百部 苹果:正常销售中「苹果不赠充电头在巴西被罚」
中关村在线消息:据国外媒体曝光,巴西司法部认为苹果iPhone产品不附带充电器是“意图损害消费者利益”,消费者保护监管机构扣押了苹果多个零售店的数百部iPhone。对此,苹果表示现...
日期:11-29
5点起床做饭,仨娃妈是如何靠做饭涨粉百万?
声明:本文来自于微信公众号 蝉妈妈(ID:cmmshuju),作者:蝉妈妈,授权转载发布。洗手作羹汤,带货上千万。近日,@王蓉三娃妈火了,用视频记录一日三餐和日常,让这个博主在半年内迅速涨粉...
日期:11-17
微软 Bing 推出网购全新功能:支持比价和查看销量(微软bing官网)
  11 月 9 日消息,根据微软官方 Bing 博客的消息,Bing 搜索引擎引入了全新的网购功能,这些新功能将为会帮助用户在网购上节省大量的时间和金钱,并帮助用户做出适合他们的购买...
日期:10-17
2022元宇宙共享大会|“宇宙元年二十大事件”数字藏品启动发布_世界元宇宙大会
央链直播报道, 2022 年 8 月 16 日,“开放与兼容” 2022 元宇宙共享大会暨《元宇宙十大技术》图书首 发仪式,及元宇宙产业委第 一届第二次全体委员大会,在北京西山国管局杏林山...
日期:09-11
为什么说无人问津的iPhone14 Plus才是这届最强苹果手机?_iPhone14手机
今年苹果发布的最新款手机iPhone14系列共有4款,但热度却几乎集中在定位较高的后两款iPhone14 Pro和iPhone14 Pro Max上,而定位较低的iPhone14和iPhone14 Plus则关注度非常低,大...
日期:09-21
英特尔将在 2024 年推出 Wi-Fi 7,苹果正逐渐向 Wi-Fi 6E 过渡
IT之家 8 月 1 日消息,据 ETNews 报道,英特尔计划到 2024 年在设备中引入下一代无线网络技术 ——Wi-Fi 7 (802.11be) 。Wi-Fi 7 是 Wi-Fi 6E (802.11ax) 的继任者,可充分利用...
日期:08-22
拥抱智慧零售,小城天天快递不仅送货还卖家电
  你见过这样的快递公司吗?除了原有快递配送之外,还销售品牌家电、负责安装,并能提供维修、清洗等服务。   放在几年前,70后叶宏裕做梦都不敢相信,自己还能做这样的快递公...
日期:06-18
仙剑奇侠传原名逍遥侠客行上热搜 姚仙:新名包含四大主角_仙剑奇侠传商羽
10月9日,《仙剑奇侠传》原名《逍遥侠客行》话题冲上热搜榜首引发关注。据悉,《逍遥侠客行》为单机游戏《仙剑奇侠传》的原定名称,但并没被正式采用。接受采访时,仙剑之父”姚壮...
日期:10-10
自动驾驶载客车,易行S1 落地价9.98万
  易成自2019年推出易系列作业车以来,受到广大合作客户的欢迎与好评,现已完成多个款型与批次的自动驾驶车辆交付。   藉新中国成立70周年之际,易成推出自动驾驶载客车促销...
日期:11-28
哪吒销量2020「哪吒9月销量破1.8万台 100万内轿跑哪吒S订单超15万台」
10月1日,哪吒汽车公布9月交付数据,哪吒U+V”交付量18005台,同比增长134%;1-9月累计交付111190台,同比增长168%。德国特斯拉销量iPhone13为什么加价其中,哪吒V车系交付11935台,同比...
日期:10-04
经销商轻松签署电子合同,上上签助企业渠道管理转型
  很多传统企业在供应链场景上线电子合同之前总有顾虑:我们的经销商都是一路陪伴我们走过来的老兄弟,很难玩转高科技。实际上,在上上签平台,经销商签署电子合同非常简单,通过...
日期:11-21
荣耀平板 V7 Pro 手写笔命名 Magic-Pencil 2 ,可置于转轴处充电(荣耀magic2支持手写笔吗)
  8 月 9 日消息 荣耀此前官宣了荣耀平板 V7 Pro 将与 Magic 3 系列等一起在 8 月 12 日发布,该机将首发搭载联发科最新发布的迅鲲 1300T 芯片。   此外,该平板电脑做到...
日期:01-11
Gartner 发布2021超融合基础架构软件“客户之选” 华云数据等三家中国厂商入选
  ​近日, Gartner发布了最新的《Gartner Peer Insights“客户之选”:超融合基础架构软件》年度报告,通过对海量的客户评价进行多维度的数据分析,评选出全球超融合市场中最受...
日期:08-02
苹果iPhone 14太能吸金 128G升级256GB赚走90%利润「苹果12 128g进价」
在智能手机行业,苹果是标杆性的存在,虽然全球销量干不过三星,只能位居第二,然而他们一家就能赚走整个行业大部分利润,吸金能力爆表,苹果对赚钱的算计几乎体现在每个细节上,比如升级...
日期:09-29
向广告商示好 马斯克:希望推特成为最受尊重的广告平台
  财联社10月28日讯(编辑 夏军雄)尽管世界首富埃隆·马斯克尚未正式完成对推特的收购,但他已经开始规划这家社交媒体平台未来的发展。特斯拉再举“价格屠刀”,Model Y起售价...
日期:10-28
愤怒的小鸟上市时间_《愤怒的小鸟》开发商计划2、3年内上市
北京时间5月18日消息,据国外媒体报道,热门iPhone游戏《愤怒的小鸟》的开发商Rovio Mobile的首席执行官麦基尔赫德(Mikael Hed)周三在巴黎召开的路透全球技术峰会上表示,公司计划...
日期:07-28
马斯克现身世界杯观战阿根廷对法国:赛后发出灵魂拷问
昨晚的世界杯决赛可谓难得精彩,场面一波三折。硬核手机redmi note 11 公开版场外前来观战的阵容同样豪华,除了一些政要、足坛名宿等,也不乏商界精英,比如马斯克。有私人飞机就是...
日期:12-19
成都富士康限电停产一周_富士康停电了吗
  财联社8月15日电,财联社记者从负责富士康招聘的中介处了解到,成都富士康从15日至20日限电,仅保留20%保安负载,全厂生产停止。生产线员工对财联社记者表示,已接到休息通知。(财...
日期:10-01
中国成实现“物超人”的国家 华为:正式进入“物联连接红利”时代
今年8月份,我国移动物联网连接数已达16.98亿户,首次超出移动电话用户数16.78亿户,中国正式进入物超人”时代,成为全球主要经济体中首个实现物超人”的国家。11月14日无锡首届移...
日期:11-17