您的位置:首页 > 互联网

华科大发布多模态大模型新基准 覆盖五大任务_多模态的研究现状

发布时间:2024-02-03 00:35:44  来源:互联网     背景:

要点:

华中科技大学等机构发布了多模态大模型新基准,对14个主流多模态大模型进行全面评估,覆盖五大任务、27个数据集。

研究团队深入研究了多模态大模型在OCR(光学字符识别)能力上的表现,提出了专门的评测基准OCRBench,揭示了在OCR领域中多模态大模型的局限性。

腾讯怕抖音

评估结果显示多模态大模型在一些任务上表现出色,如文本识别、文档问答,但在语义依赖、手写文本和多语言文本等方面存在挑战,需要进一步改进。

国际佛光会世界总会

多模态算法

2月2日 消息:近期,华中科技大学等机构发布了一项关于多模态大模型(LMMs)的全面评估新基准,旨在解决多模态大模型性能评估的问题。这项研究涉及了14个主流多模态大模型,包括谷歌Gemini、OpenAI GPT-4V等,覆盖了五大任务、27个数据集。然而,由于多模态大模型的回答具有开放性,评估各个方面的性能成为一个亟待解决的问题。

布拉格是浪漫之都吗

多模态研究方向

多模态算法

在这项研究中,特别强调了多模态大模型在光学字符识别(OCR)方面的能力。研究团队深入研究了多模态大模型的OCR性能,并为此构建了一个专门的评测基准,命名为OCRBench。通过对27个公有数据集和2个生成的无语义和对比的有语义的数据集上进行广泛实验,揭示了多模态大模型在OCR领域的局限性。论文详细介绍了评测模型的概述、指标以及使用的评测数据集。

双十一电商新闻

项目地址:https://github.com/Yuliang-Liu/MultimodalOCR

评估结果显示,多模态大模型在一些任务上表现出色,如文本识别、文档问答等。然而,在语义依赖、手写文本和多语言文本等方面,这些模型存在一定的挑战。特别是在处理缺乏语义的字符组合时,性能较差。手写文本和多语言文本的识别也呈现出较大的挑战,可能与训练数据的不足有关。此外,高分辨率输入图像对于一些任务,如场景文本问答、文档问答和关键信息抽取,具有更好的表现。

为了解决这些限制,研究团队构建了OCRBench,以便更准确地评估多模态大模型的OCR能力。这一举措有望为多模态大模型的未来发展提供指导,并促使更多的改进和研究,以进一步提升其性能和应用领域的拓展。

在这个多模态大模型评估的新时代,OCRBench的引入为研究者和开发者提供了一个更为准确和全面的工具,以评估和改进多模态大模型的OCR能力,推动该领域的发展。这项研究不仅为多模态大模型的性能评估提供了新的思路,也为相关领域的研究和应用奠定了更加扎实的基础。


返回网站首页

本文评论
宁夏要安装多少个5g基站「宁夏:2024年将实现人口密集区5G信号全覆盖」
通信世界网消息(CWW)今日,宁夏回族自治区公布2024年北京市政府工作报告(以下简称《工作报告》)。《工作报告》指出,2024年宁夏将加快建设七大数据中心,力争新增标准机架6万架以上,更...
日期:01-29
还有主动散热风扇 「红魔8S」-Pro或首发高频版骁龙8 Gen2
进入年中,上半年各大品牌旗下的顶级旗舰都已悉数亮相,这段时间以来,关于下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系列,此前有消息称该机将...
日期:09-12
张一鸣,栽了一个大跟头
作者 | 闫俊文来源 | 中国企业家杂志(ID:iceo-com-cn)迫于官方压力,10月4日,TikTok正式关停在印度尼西亚的TikTok Shop功能,此时,距离其在印尼开展电商业务不过2年时间。此前,印度尼...
日期:10-16
轻舒时尚,无线灵动 ▎达尔优D1蓝牙耳机正式发布(达尔优D1蓝牙耳机)
  小巧机身,轻舒的佩戴感   简约设计,方显时尚触觉   灵动连接,乐享无线快感   北京时间2021年2月5日,达尔优(DAREU)发布D1蓝牙耳机。采用高品质杰理蓝牙5.1芯片,单双...
日期:07-16
支付宝上线技能认证服务:获证学员可获技能证书、就业推荐等_支付宝技能证书有必要填写吗
为促进青年群体就业、提升就业效率,日前,多地政府部门机构、招聘机构等联合支付宝平台发起“樟子松计划”,首期面向毕业生群体推出30万岗位。作为计划的一部分,6月21日,支付宝上...
日期:06-21
Soul强势冲刺港股 升级技术打造安全社交元宇宙平台(soul股市)
近日,社交元宇宙平台Soul正式向港交所递交招股书。即将上市的Soul,在品牌升级方面持续更新,其背后是品牌的实力自信。据了解,Soul在NAWA引擎技术和风控技术领域就做出了亮眼成绩...
日期:08-03
站在AGI拐点,重新想象老年生活
声明:本文来自微信公众号“脑极体”(ID:unity007),作者:藏狐,授权转载发布。AI适老化,是脑极体自成立以来,就非常关注的话题。我们曾经报道过许多国内外的AI养老技术与趋势,也曾跟随...
日期:01-17
美国女孩被麦当劳鸡块烫伤获赔574万元 辩护律师:她以后还会去麦当劳
2019年,在美国佛罗里达州塔玛拉克附近一家麦当劳得来速餐厅外,4岁的奥莉维亚·卡拉巴洛在车内打开一份开心乐园餐时,被一块掉在她腿上的鸡块烧伤。2023年7月19日,陪审团判定她将...
日期:07-22
翻译研究中的眼动追踪技术研讨班_眼动追踪技术:原理与应用 pdf
  由中国翻译认知研究会主办,河南工业大学外语学院承办的新时代创新背景下翻译传译认知国际研讨会暨中国翻译认知研究会第三届大会2018年5月在河南工业大学举行。会议期间...
日期:04-03
有意思的众筹项目「一个创意就募集3亿元,全球最大众筹平台,为何决定永不IPO?」
声明:本文来自于微信公众号 创业邦(ID:ichuangyebang),作者:苏敏,授权转载发布。2017年3月,Snapmaker(深圳快造科技有限公司)创始人兼CEO陈学栋决定在Kickstarter平台上发起众筹,为...
日期:01-06
紫光展锐发布全新AIoT开发平台,打造物联网一站式解决方案_紫光物联智能产品
  全球领先的移动通信及物联网核心芯片供应商紫光展锐今日正式发布面向未来的一站式AIoT开发平台,平台以人工智能和连接能力为基础,面向广阔的物联网应用与生态,满足不断增...
日期:11-20
Adob​​e禁止将Photoshop的新 AI 功能用于色情内容创作
5月25日 消息:日前,人工智能绘画工具Firefly已经正式开放公测,并将其集成到 Photoshop 中命名为Generative Fill。小米手环3代nfc淘宝总裁张勇Adobe 数字媒体总裁David Wadhwa...
日期:05-25
899 元就有 14 Pro 灵动岛,乐视手机 S1 Pro 开售
2023 年 1 月 12 日消息,乐视手机 S1 Pro 现已在乐视商城开售,售价为 899 元,值得一提的是,这款手机外观基本复刻了 iPhone 14 Pro 的模样,灵动岛也是一样一样的。轻薄本多大内存...
日期:01-12
SpaceX“星舰”发射推迟至周六 计划2025年将宇航员送上月球
美国太空探索技术公司(SpaceX)总裁马斯克宣布,原定于当地时间 17 日 21 时发射的“星舰”(Starship)将推迟至 18 日,原因是需要更换格栅翅片执行器。这一决定引起广泛关注,标志着Sp...
日期:11-17
90%的组织表示生成式AI将在未来12个月内帮助拓展业务线
**划重点:**联发科天玑720相当于什么-...
日期:11-14
暗流涌动:视频号那些不为人知的故事「暗流涌动纪录片内容」
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:小Q 唐露尧,授权转载发布。毫无疑问,腾讯全厂希望的视频号成为创业者2023年最值得期待的短视频窗口。今年年初的微信公开...
日期:02-11
数智万融 畅享未来 天翼数字生活公司多款产品亮相上海世界移动通信大会
通信世界网消息(CWW)6月28日,上海世界移动通信大会(简称“MWC上海”)在上海新国际博览中心举办,此次展会围绕5G变革、数字万物、“超越现实+”三大主题方向展开,打造一场开放共享、...
日期:06-28
马斯克推特比特币「宁愿多花200多亿,马斯克为何不愿以更低价收购推特?」
凤凰网科技讯 北京时间10月11日消息,知情人士称,就在埃隆马斯克(Elon Musk)重新提出以“原价”收购推特的前几天,双方曾讨论过以每股50美元的折扣价进行交易,但是马斯克最终没有...
日期:10-24
自研龙骨转轴精密度令人惊叹!小米MIX Fold 3更耐摔、50万次折叠认证
快科技8月10日消息,众所周知,转轴是折叠屏手机的核心,转轴好不好关乎着折叠屏使用寿命、开合体验,以及抗摔能力。小米今日宣布,小米MIX Fold3将采用龙骨转轴,在超精密的机械结构设...
日期:08-10
Redmi K70或已开始量产 王腾发文称已经开始用新机_红米k17
Redmi市场总经理、Redmi品牌发言人王腾在微博上表示,Redmi已开始量产一款新机。根据种种迹象,这款机型很可能是Redmi K70系列。昨天的联发科新品发布会上,小米集团高级副总裁、...
日期:11-07