您的位置:首页 > 互联网

​谷歌AI研究人员提出噪声感知训练方法(NAT)用于布局感知语言模型

发布时间:2024-04-08 13:54:32  来源:互联网     背景:

划重点:

⭐️ 谷歌 AI 研究人员提出了噪声感知训练方法(NAT)用于训练具有布局感知能力的语言模型

⭐️ 研究团队提出的 NAT 方法旨在解决在有限标记数据和有限训练时间内训练强大文档抽取器的挑战

⭐️ 这项研究为在企业环境中提高文档处理工作流的效率和可扩展性,最终提高生产力并降低运营成本铺平了道路

硅谷银行市值

4月8日 消息:在文档处理中,特别是在视觉丰富的文档(VRDs)中,高效信息提取(IE)的需求变得越来越关键。VRDs,如发票、水电费单和保险报价,在业务工作流中随处可见,通常以不同的布局和格式呈现类似信息。自动从这些文档中提取相关数据可以显著减少解析所需的手动工作量。然而,从 VRDs 实现 IE 的通用解决方案面临着重大挑战,因为它需要理解文档的文本和视觉特性,这些特性无法轻松地从其他来源中获取。

针对从 VRDs 提取信息的任务,已经提出了许多方法,范围从分割算法到编码视觉和文本上下文的深度学习架构。然而,许多这些方法依赖于监督学习,需要许多人工标记的样本进行训练。

标记高度准确的 VRDs 是一项耗时且昂贵的工作,这在企业场景中构成了瓶颈,必须为成千上万种文档类型训练定制提取器。研究人员已经转向预训练策略来解决这一挑战,利用无监督多模态目标在未标记实例上训练抽取器模型,然后在人工标记的样本上进行微调。

尽管预训练策略具有许多潜在优势,但它们经常需要大量的时间和计算资源,使其在受限制的训练时间内变得不切实际。作为对这一挑战的回应,谷歌 AI 的研究团队提出了一种半监督的持续训练方法,以在有限的人工标记样本和有限的训练时间内训练出稳健的抽取器。他们提出了一种噪声感知训练方法(NAT)。他们的方法分为三个阶段,利用标记和未标记数据来循序渐进地提高抽取器的性能,同时遵守对训练施加的时间约束。

他们研究的核心问题是推动文档处理领域的发展,特别是在企业环境中,可扩展性和效率至关重要。挑战在于开发技术,允许在有限的标记数据和有限的训练时间内有效地从 VRDs 中提取信息。他们提出的方法旨在应对这一挑战,最终目标是使普通用户能够访问先进的文档处理功能,同时最大限度地减少为训练定制提取器所需的人工工作量和资源。

所提出的半监督持续训练方法不仅解决了在严格时间限制内训练强大文档抽取器所固有的挑战,而且带来了一系列好处。通过系统地利用标记和未标记数据,他们的方法有望显着提高企业环境中文档处理工作流的效率和可扩展性,最终提高生产力并降低运营成本。他们的研究为使普通用户能够访问先进的文档处理功能铺平了道路,标志着该领域迈出了重要的一步。

论文地址:https://arxiv.org/abs/2404.00488


返回网站首页

本文评论
加密货币Coinbase"上市惊魂"_传Coinbase因加密货币上市问题面临SEC审查
文/魏昊铭   据三位知情人士透露,Coinbase正面临美国方面的调查,调查内容是该公司是否不当地允许美国人交易本应注册为证券的数字资产。两位不愿透露姓名的人士表示,自从Coin...
日期:07-31
杨幂赶集网广告_仿赶集营销策略 58同城狂砸杨幂广告不见效
  地铁广告通过其频繁的重播次数以及乘坐地铁的不可抗拒性,成为众多广告宣传中最有实力的病毒视频。至今,做的最成功的地铁移动广告要说“姚晨骑驴”的赶集网了,只要你乘坐...
日期:07-28
型牌男装推联盟业务 佣金比例高达15%且三年有效
近年来,电商的持续火热导致了门户等广告资源的价格持续走高,企业的推广成本居高不下,越来越多的企业将营销重点放在了联盟推广上,如谷歌AdSense、百度联盟、淘宝联盟等。而一些...
日期:07-27
斯坦福炒虾机器人爆火全网!华人团队成本22万元,能做满汉全席还会洗碗
新智元报道 编辑:桃子 好困【新智元导读】今天,大家都被斯坦福华人团队的这个炒菜机器人刷屏了。仅用50个演示,就能让机器人完成各种复杂任务。最重要的是,打造成本22万,项目全部...
日期:01-05
科技助力创新服务,君润人力荣获“2022中国十大影响力人力资源品牌-华中地区”
4 月 20 日,由MeetHR Group、混沌学园联合主办的“大中华地区HRVP高峰论坛暨第七届人力资源优秀品牌展”在武汉富力万达嘉华酒店盛大举办。作为一家以科技驱动的综合人力资源...
日期:04-24
vivo Pad 2正式官宣,搭载天玑9000,12.1英寸2.8K屏幕「vivo平板电脑价格表」
4月13日消息,vivo Pad 2定档4月20日,今日更多配置公布,vivo称主打旗舰大屏。vivo Pad 2搭载天玑9000处理器,配备12.1英寸2.8K LCD屏,支持144Hz刷新率,和超感原色显示电影级调教。...
日期:04-14
疑似公版NVIDIA GeForce RTX 4070照片泄露 双插槽高度已确认
据称,NVIDIA即将推出的中端GPU GeForce RTX 4070的照片已被发布到网上。名为摩尔定律已死(Moore's Law is Dead)的账户发布了一张照片,展示了一块未发布的RTX 4070显卡。风扇叶...
日期:10-08
领克 mix number「首款魅族车机量产车!领克08预售官宣:8月8日开卖」
快科技8月4日消息,据领克汽车官方,旗下全新中型SUV领克08将于8月8日开启预售,将同步推出1008台时间限量版车型。08是领克全新都市对立美学设计风格的首款量产车型,基于The Next...
日期:08-05
百度Apollo:极狐汽车再交付200台共享无人车Apollo Moon_极狐汽车无人驾驶
10月9日 消息:百度Apollo宣布,近日,极狐汽车向百度Apollo再交付200台第五代共享无人车 Apollo Moon,萝卜快跑运力持续提升。据百度集团资深副总裁、智能驾驶事业群总经理李震宇...
日期:10-11
男子钱包丢10年:被好心人分文不少送回
9月8日消息,安徽蚌埠李先生10年前将装有上千元现金的钱包弄丢了,当时以为被偷,很心疼。乘联会2021年9月汽车销量诺基亚最新款手机10年后,李先生收到被送回的钱包。他才知道,原来...
日期:09-08
三星i9070_三星i9070电源排线
是一款具有良好性能和设计的智能手机,采用了三星的经典外观设计和高性能硬件件配件。以下是对其特性,优缺点的详细解析。外观设计:手机采用了经典的直板设计,机身尺寸为125.9 x...
日期:05-31
苹果新一代 iPhone SE 爆称或将配备灵动岛 屏幕_灵动 ipfs
天猫618活动策划据爆料人透露,苹果新一代iPhone SE有望采用灵动岛屏幕。据悉,灵动岛屏幕首次出现在iPhone 14 Pro系列上,并且在后续的iPhone 15系列中成为标配。目前,苹果尚未最...
日期:02-10
小米14 Ultra获推HyperOS 1.0.7.0公测版更新:新增摄影手柄充电控制开关_小米pro14摄像头
小米14 Ultra手机的HyperOS操作系统已经更新到了1.0.7.0.UNACNXM版本,这个更新包含了摄影手柄充电控制开关、天通短信同步生命体征信息功能(需要搭配小米运动健康3.27.2版本)、...
日期:03-22
手机 App 和网站验证信息能否更方便视力障碍群体操作?工信部回应
  8 月 24 日消息 据工信微报,来自河北省邯郸市的刘先生提问称,工信部能否推动企业推出更多适应盲人群体的验证方式,同时推动购物类 App 加强与读屏软件的合作?   我是一...
日期:05-06
情人节限时降价!Redmi Pad便宜了:到手1169元起
针对即将到来的情人节,小米官方宣布,Redmi Pad即日起至2月14日,小米商城最高限时优惠150元,到手价仅1169元起。作为Redmi首款平板,Redmi Pad采用了一块同价位罕见的90Hz高刷2K大...
日期:02-13
oppo手机k1参数配置「OPPO K12海外版新机详细参数曝光 骁龙7 Gen3 100W」
据了解,有数码博主近日曝光了OPPO K12海外版的详细参数。从其放出的手机图片来看,这款手机可能会以一加品牌的身份推出,外观设计和国内新上市的一加Ace 3V基本一致,只不过配色更...
日期:03-28
百度新专利:盲人导航眼镜 可语音导航并识别障碍物
快科技5月9日消息,北京百度网讯科技有限公司申请的盲人导航眼镜”外观设计专利获授权。该项专利的申请日期为2023年3月3日,授权公告日为2023年5月9日。专利类型为外观设计,发明...
日期:05-10
张一鸣对抖音本地生活信心倍增,今年业务目标翻倍_张一鸣抖音创业经历
声明:本文来自于微信公众号电商报Pro(ID:kandianshang),作者:李迎,授权转载发布。快速成长的本地生活,成为了抖音新的增长突破点。2023年,抖音生活服务GMV目标翻倍在互联网流量红...
日期:01-17
华米第四季度营收11亿元 净亏损7550万元_华米2021财报
  讯 北京时间3月21日晚间消息,华米科技(NYSE: ZEPP)今日发布了截至12月31日的2022年第四季度及全年财报。财报显示,华米第四季度营收为11亿元,同比下滑35.5%。归属于华米的净...
日期:03-24
大浪淘沙/HTTP终将落后于时代!
  据bleepingcomputer报道,为保障政府网站始终安全,美国政府将从2020年9月1日开始在新的.gov网站上实施HTTPS。   从HTTP转移到HTTPS协议后,美国政府网站将使用传输层安全...
日期:07-14