您的位置:首页 > 互联网

大模型理解复杂表格,字节&中科大出手了_大模型理解复杂表格,字节怎么写

发布时间:2024-06-15 10:42:21  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:允中,授权转载发布。

只要一个大模型,就能解决打工人遇到的表格难题!

字节联手中科大推出了一款统一表格理解大模型,可以以用户友好的方式解决多种表格理解任务。

同时提出的还有一套开源测试基准,可以更好地评估模型在表格理解任务上的表现。

该模型名为TabPedia,利用多模态大模型,将不同处理表格任务的专有模型进行了整合。

在这之前,不同的任务都有独立的模型和解决方案,单是找到适合的模型就是已经很让人头疼。

而TabPedia通过概念协同(Concept Synergy)机制来实现多个任务、多种源信息的整合协作,打工人再也不用为找模型而烦恼了。

大模型理解复杂表格,字节怎么写

大模型理解复杂表格,字节怎么写

那么,这款新模型都能实现怎样的效果呢?

无需裁剪识别多表格结构

首先来看,在测试数据集上,TabPedia可以在不借助后处理算法的条件下,精准识别表格位置并直接生成无重叠的检测框。

在判断出表格位置的基础之上,对于表格结构识别任务,TabPedia可以继续生成一系列连续的表格结构元素以及相应的检测框。

不仅判断准确,还有效地解决了标记语言(HTML或者Markdown)处理空间坐标的不足和非法语法潜在造成解析错误的弊端。

而且不再需要将表格从图片中手动裁剪,研究者们借助大模型的理解能力,让模型可以直接在原始文档图像中实现多表格实例的表格结构识别。

值得一提的是,此类任务是由TabPedia团队的作者首次提出的。

当然,只识别表格的位置和结构是远远不够的,而对于表格问答任务,TabPedia不仅可以给出正确的答案,同时还能基于表格的内容给出相应的理由。

实战方面,面对多种不同的开放场景,TabPedia同样表现优异。

比如在论文中的表格检测任务当中,TabPedia可以准确地检测出图像中的所有表格实例。

对于表格结构识别能力,研究者们随机选取了不同论文中的表格图像,对于包含密集文本信息的表格结构,依然预测出准确的结构信息。

而在问答任务上,TabPedia仍然可以像在数据集测试中一样,根据表格内容和表格结构信息,做出合理且正确的回答。

此外,为了更好地评估各种模型在现实世界表格图像上的TQA性能,作者还构建了一个复杂的TQA数据集(ComTQA)。

与现有的基准WTQ和TabFact相比,ComTQA具有更具挑战性的问题,例如多个答案、数学计算和逻辑推理。

通过专家标注,作者们从大约1.5k张图像中注释了约9k个高质量的表格问答对。该数据集的标注目前已经在Huggingface开源。

那么,TabPedia具体是如何实现的呢?

高低分辨率分别训练

如下图所示,TabPedia包含两个视觉编码器以及各自的映射层,一个分词器以及大语言模型。

在预训练阶段,TabPedia主要学习如何对齐视觉表征和语言模型的输入空间;在微调阶段,TabPedia进一步专注于视觉表格理解。

其中,高分辨率视觉编码器用于2560x1920的高分辨文档图像,可以提供丰富的细粒度视觉信息;

低分辨率视觉编码器为了保持整图的结构信息,编码224x224的低分辨图像。

大模型理解复杂表格,字节怎么设置

为了更好地让语言模型理解视觉信息,该工作沿袭了主流多模态大模型的对齐策略,设计了两个简单的映射层。

对于高分辨率支路的映射层,TabPedia采用2D的卷积层来聚合近邻的视觉特征,同时有效地缓解视觉token数量冗余的现状。

给定大量的视觉tokens以及文本指令的嵌入特征,TabPedia采用Vicuna-7B作为语言模型生成回答。

考虑到表格感知和理解任务之间的差异,TabPedia引入了Meditative Tokens M 来实现概念协同机制,它可以自适应地激活不同区域的视觉tokens,并理解特定任务问题的意图。

整体的输入序列为 X = [Q;; V_l ;; V_h,; M],其中,和都是可学习的特殊token,分别代表视觉tokens的开始、结束,以及区分不同分辨率的视觉tokens。

由于TabPedia和其它LLMs一样执行next token预测,因此仅需要简单的交叉熵损失函数作为目标函数来优化整个框架。

通过预训练,TabPedia能够很好地理解各种文档图像的文本和结构,但无法根据指示执行不同的表格理解任务。

为了增强模型的指令跟随能力,该工作首先构建了一个用于视觉表格理解的大规模数据集。

基于该数据集,研究者引入了四个与表格相关的任务,即表格检测,表格结构识别,表格查询以及表格问答,来同步执行感知和理解任务。

在该阶段,LLM也参与训练微调,进一步增强大模型的指令跟随和视觉信息抓取的能力。

开源数据集与合成数据共同训练

数据方面,TabPedia的全部数据来源于五个公开的表格数据集,包括PubTab1M、FinTabNet、 PubTabNet、WikiTableQuestions(WTQ)和TabFact,具体的数据使用情况如下图所示:

rtx 4080

同时,对于不同任务的指令设计,作者也给出了对应的示例以便模型更好地理解。

其中最值得注意的是,表格检测和表格结构识别的任务摆脱了之前繁琐的后处理的弊端,TabPedia直接可以预测无重叠的检测框,高效率地输出用户需要的答案。

除此之外,研究者们进一步借助大模型的理解能力,克服之前工作需要将表格从原文档中裁剪出来做结构识别的流程,直接在原文档图像中实现多表格实例的表格结构识别。

该任务为利用大语言模型实现更复杂的表格理解奠定了强有力的基础。

对于表格问答任务,现有的数据绝大多数是基于文本的表格中生成的,仅在背景颜色和字体大小存在变化,导致在现实世界的表格中泛化能力较差。此外,TQA数据的量级远远落后于其他任务。

为了克服这些障碍,研究者们利用开源多模态大模型,基于FinTabNet和PubTab1M中部分图像数据生成了大量的TQA数据。

另外作者表示,尽管TabPedia已经在视觉表格理解展现出强大的能力,仍然有很多未解决的挑战激发研究者更深入的探索:

黄石房价2021最新价格

  • 对于扭曲表格无法准确的理解和识别。该能力不足一方面源于训练数据的不足,另一方面是对于表格结构的表示采用了规则的矩形框。

  • 目前的表格问答仍需要table-centic图像,如何将其迁移到在原始文档图像直接问答也是一项挑战性的工作。

  • 增加表格单元格内容识别可以提升模型对于表格内容的理解以及细粒度信息的抓取能力。

总体来说,视觉表格理解任务依然有很多技术难点等待攻克。TabPedia初步探究了多模态大模型的表格理解能力,作者希望能对大家的研究有所帮助。

论文地址:

https://arxiv.org/abs/2406.01326

ComTQA数据集:

https://huggingface.co/datasets/ByteDance/ComTQA


返回网站首页

本文评论
大漠叔叔是什么「大漠叔叔不会成为下一个“反诈老陈”」
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:潮关,授权转载发布。“暗号不变,江湖再见,南海见,这回真下海拍片。”9月27日,@海南警方 在抖音的一则评论中,发布@大漠叔叔(本...
日期:10-18
国产芯片 龙芯「国产CPU龙芯上新!」
通信世界网消息(CWW)今天(28日),新一代国产CPU——龙芯3A6000在北京发布。CPU是计算机的核心组成部分,就像“大脑”一样指挥各个部件的运行。据介绍,龙芯3A6000采用我国自主设计的...
日期:11-29
中国新能源车出海有多火:泰国人凌晨排队买比亚迪「泰国新能源汽车」
中国新能源汽车在海外有多抢手?当地消费者甚至凌晨都要起来排队购买。本月初,在泰国曼谷的一家比亚迪展厅外,有数十米的队伍早早地排起了队伍,他们所想要购买的,正是前不久在该国...
日期:11-25
苹果 iPhone“电池门”赔款到账 每台手机获赔660元
快科技1月7日消息,苹果的电池门”事件,以苹果赔付5亿美元(约35.7亿元)和解迎来最终局面。苹果11pro max价格而网友最新分享的信息显示,苹果当前已开始向用户发放赔偿金,有人已陆续...
日期:01-07
WMC2023第二届世界元宇宙大会在上海开幕
2023 年 9 月 20 日,以“虚实相生,产业赋能”为主题的WMC2023 第二届世界元宇宙大会在上海安亭隆重举行。大会由中国仿真学会、中国指挥与控制学会和北京理工大学共同主办,上海...
日期:09-21
AutoAgents:基于LLM的自动代理生成框架_自动代理apk
10月7日 消息:AutoAgents是一个创新性的框架,旨在通过GPT生成不同的角色,以形成协作实体,用于处理复杂任务。无需手动编写规则或代理,AutoAgents利用LLM的能力,可以根据您设定的...
日期:10-07
iPhone 13立减800:到手4388 和iPhone 14一个芯片
iPhone 14系列的三款手机开售已经3周,但虽然是今年的新款,但用户的评价却很一般,在发布会期间就有用户认为既然是新款为何还要使用和iPhone 13同款的A15芯片,最终也导致第二天iP...
日期:10-02
西安通报男子隧道内开车门恶意别车:未成年无证驾驶 已作出处罚
快科技3月13日消息,日前,一段隧道内行驶车辆打开车门影响后车安全驾驶”的视频在网上流传,引发热议。视频显示,一辆黑色汽车在西安科技八路隧道内行行驶时,突然加速追上前方白车,...
日期:03-13
索尼与微软达成协议:《使命召唤》会继续留在PlayStation上10年
7月17日消息,据外媒报道,微软已与索尼签署一项协议,以确保在收购动视暴雪交易后《使命召唤》系列游戏继续在PlayStation游戏机上发行。这结束了微软在宣布收购动视暴雪后,两家公...
日期:07-17
腾讯控股:回购127万股,共耗资约3.5亿港元_腾讯控股买入
  财联社9月28日电,腾讯控股9月28日回购127万股,回购价格为273.6-279.8港元,共耗资约3.5亿港元。挖矿中勒索病毒NFT周杰伦微信一次只能发9张图片万兴科技吴太兵简历...
日期:09-29
6月5-7日,南京见!2024南京国际半导体博览会邀您共赴盛会_2020南京半导体项目
通信世界网消息(CWW)2024南京国际半导体博览会将于2024年6月5-7日,在南京国际博览中心举办。南京国际半导体博览会是中国半导体领域极具影响力和标志性的行业龙头展会,自2019年...
日期:04-23
雷军车展走了5万步:真的是社恐 这么多人围观有点紧张_雷军官宣造车
快科技4月26日消息,今天,小米创办人雷军在短视频平台上发布动态称这2天在北京车展上走了将近5万步。雷军还说,他真的是社恐,这么多人围观还是有点紧张。据悉,在北京车展期间,身穿...
日期:04-27
五一流水50万,年轻人捧红这门新生意_五一人流量预计
声明:本文来自微信公众号“天下网商”(ID:txws_txws),作者:天下网商,授权转载发布。“不要灯红酒绿的夜,要山,要海,要自由!”4月初,稻稻在小红书刷到了一篇川西旅行团分享笔记,声称“...
日期:05-02
中概股周四收盘普遍走高 每日优鲜涨超24% 小鹏汽车涨超7%_每日优鲜股票行情
蔚来汽车回应停产   北京时间12日凌晨,美股周四收盘涨跌不一,纳指收跌约0.6%。市场仍在评估美国的通胀数据及其对美联储加息路径可能产生的影响。周三的CPI与周四的PPI数据...
日期:08-12
搜狐新闻客户端获移动互联网之星创新应用奖_搜狐新闻客户端(推荐)
  7月28日,“2011易观移动互联网博览会”落下帷幕。本次大会吸引了逾百家展团、机构和企业,搜狐新闻客户端作为移动互联网的新军,初露头角就在“易观移动互联网之星”评选中...
日期:07-22
LCM-LoRA使用教程 这个设置可以让你快速生成符合要求的结果_lcr怎么用
11月17日 消息:LCM Laura是一个目前备受瞩目的技术,能够以惊人的速度生成定制化的LCM相关结果。本文将介绍LCM Laura的特点和实际应用。rog4k240hz显示器发布LCM Laura采用了...
日期:11-18
东方甄选可以去董宇辉化,但没法去饭圈化
声明:本文来自于微信公众号 那个吴小明(ID:haorank123),作者:第二秘书,授权转载发布。东方甄选和董宇辉小作文那事,这两天还是炒上了热搜。复习一下过程:2018年全球云计算市场总...
日期:12-15
有钱就是可以为所欲为!苹果连续第16年成为“全球最受尊敬的公司”
AppleInsider报道,苹果在福布斯年度全球最受尊敬公司榜单上名列前茅,连续第 16 年排名第一。fiture魔镜 知乎华为mate 50 pro 最新消息深信服防毒墙苏宁易购买书...
日期:02-06
国内NFT+GameFi元宇宙游戏上线,开启“边玩边赚”新模式!「元宇宙赚钱游戏」
去中心化作为区块链的核心技术特征,其价值在近年被不断挖掘,成为了众多未来产业的基石,如web3、元宇宙,以及当下的NFT/数字藏品等等;从电影《头号玩家》的虚拟世界到《失控玩家...
日期:09-12
快手二季度营收217亿元同比增13.4%,亏损31.8亿_网易科技_快手二季度财报
8月23日消息,快手科技发布2022年第二季度业绩,总营收同比增长13.4%至217亿元,高于彭博市场一致预期的207亿元。亏损31.8亿元,去年同期亏损70.4亿元。快手国内业务提前两季度实现...
日期:08-23