您的位置:首页 > 互联网

国产小钢炮一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座

发布时间:2024-05-21 10:30:37  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子 好困,授权转载发布。

【新智元导读】杀疯了!一夜之间,全球最强端侧多模态模型再次刷新,仅用8B参数,击败了多模态巨无霸Gemini Pro、GPT-4V。而且,其OCR长难图识别刷新SOTA,图像编码速度暴涨150倍。这是国产头部大模型公司献给开发者们最浪漫的520礼物。

拳打GPT-4V,脚踢Gemini Pro,仅仅8B参数就能击败多模态大模型王者。

今天,这个全球最强端侧多模态模型彻底杀疯了!

gtx显卡支持光线追踪

众所周知,端侧模型是AI发展的大趋势——从微软、谷歌再到苹果和英特尔,全球科技巨头都在争抢在PC和手机等端侧场景的AI落地。

但万万没想到的是,端侧模型的性能竟然可以这么猛,进化速度竟然可以这么快!

更令人惊喜的是,它不是来自国外大厂,而是出自国内大模型研发实力最头部的公司面壁智能——他们最新打造了面壁小钢炮MiniCPM-Llama3-V2.5。

而且,选择在今天520这个特殊的日子推出,据说是送给开源社区的情人节礼物,简直浪漫的不像个科技公司~

MiniCPM-Llama3-V2.5开源地址:

https://github.com/OpenBMB/MiniCPM-V

国行kindle可以看国外书吗

MiniCPM系列开源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

那么这个小钢炮究竟有多强?何以能担当得起全球最强端侧多模态模型的称号?

总结来讲,MiniCPM-Llama3-V2.5不仅支持30+多种语言,而且还具备:

  • 最强端侧多模态综合性能:超越多模态巨无霸Gemini Pro、GPT-4V;

  • OCR能力SOTA!9倍像素更清晰,难图长图长文本精准识别;

  • 图像编码快150倍!首次端侧系统级多模态加速。

下面这张图反映了在全球范围内,小参数、高性能的多模态大模型已经成为趋势;

而其中最亮眼的一颗星正是面壁小钢炮MiniCPM-Llama3-V2.5。

MiniCPM-Llama3-V2.5用实力证明了——模型不是只有参数越大才能性能越好,而是可以用最小参数撬动最强性能!

另外随着大模型参数愈益降低、端侧算力愈益增强,高性能端侧模型势头强劲。

而手机、PC等智能终端设备因其高频的影像视觉处理需求,对在端侧部署AI模型提出了更高的多模态识别与推理能力要求。

从面壁小钢炮三月三级跳的迅猛进化来看,推动推理成本大幅降低、大模型高效落地,胜利在望。

OCR能力SOTA+最强端侧多模态

8B端侧模型,超越GPT-4V、Gemini Pro

这一次,MiniCPM-Llama3-V2.5以8B端侧模型参数量级,贡献了惊艳的 OCR(光学字符识别)SOTA成绩,以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。

模型雷达图,MiniCPM-Llama3-V2.5综合能力水平全面优秀

在综合评测权威平台OpenCompass上,MiniCPM-Llama3-V2.5以小博大,综合性能超越多模态巨无霸GPT-4V和Gemini Pro。

OCR(光学字符识别)是多模态大模型最重要的能力之一,也是考察多模态识别与推理能力的硬核指标。

新一代MiniCPM-Llama3-V2.5在OCR综合能⼒权威榜单OCRBench上,越级超越了Claude3V Opus、Gemini Pro等标杆模型,实现了性能SOTA。

在评估多模态大模型性能可靠性的重要指标——幻觉能力上,MiniCPM-Llama3-V2.5在Object HalBench榜单上超越了GPT-4V等众多模型(注:目标幻觉率应为0)。

在评估多模态模型的基本现实世界空间理解能力的RealWorldQA榜单上,MiniCPM-Llama3-V2.5再次超越GPT-4V和Gemini Pro,这对8B模型而言难能可贵。

快150倍!首次端侧系统级加速

支持30+多语言,拥抱世界开源社区

首次进行端侧系统级加速,MiniCPM-Llama3-V2.5已高效部署手机。

在图像编码方面,面壁首次整合NPU和CPU加速框架,在MiniCPM-Llama3-V2.5图像编码方面实现了150倍加速提升。

在语言模型推理方面,目前开源社区的报告结果显示,Llama3语言模型在手机端侧的解码速度在0.5token/s上下,相比之下,多模态大模型的端侧运行面临着更大的效率挑战,经过CPU、编译优化、显存管理等优化方式,面壁将 MiniCPM-Llama3-V2.5在手机端的语言解码速度提升到3-4token/s。

目前,语言模型的图像编码加速也在进行中,更灵敏互动体验即将到来。

(此处GIF为2倍速演示,面壁正进一步加速优化中)

(此处GIF为2倍速演示,面壁正进一步加速优化中)

有别于常见的中英双语模型,MiniCPM-Llama3-V2.5可支持30+多种语言,

包括德语、法语、西班牙语、意大利语、俄语等主流语言,基本覆盖一带一路国家。

基于自研的跨语言泛化技术,仅通过少量翻译的多模态数据的指令微调,就可对多语言多模态对话性能高效泛化。

现在,上百个国家的几十亿人口,终于可以自如使用母语和端侧大模型交流,不再游离于前沿科技发展的主线,也因此享有更多AI应用落地、生活品质提升与参与科技角逐的可能性。真正让更多人享受大模型的乐趣!

多语言案例展示(语言加速工作正在进行,此处为2倍速)

多语言版本LLaVABench评测结果,MiniCPM-Llama3-V2.5对话能力更胜一筹

9倍像素更清晰

难图长图长文本精准识别

OCR技术进一步打磨,复杂推理与多模态识别能力再进化,MiniCPM-Llama3-V2.5对于难图、长图、长文本的精准识别,再度带来出众表现!

面壁自研高清图像高效编码技术,可以高效编码及无损识别180万高清像素图片,并且支持任意长宽比、甚至有点变态的1:9极限比例图像,突破了传统技术仅能识别20万像素小图的瓶颈。

此前,MiniCPM-V系列多模态模型就因对于街景、长图等困难场景的高效解析,赢得了良好口碑。

苹果14pro充电有多快

技术升级,MiniCPM-Llama3-V2.5在复杂推理能力上进一步突破。可更好地深入洞察图像,在更复杂、更接近人类的水平上进行思考和解决问题,堪称大模型中的小福尔摩斯。

复杂推理能力使得模型不仅能理解单的文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的分析。

比如给定一张充满繁密字迹的建筑风景图,难以人眼辨别,但MiniCPM-Llama3-V2.5能够一眼看懂其中的《三体》主题,还能正确推理出这些建筑是为了纪念《三体》及其对中国科幻文学的贡献而设计,令人会心一笑。

把同样的问题抛给GPT-4V,结果并不理想。

另外,识别包含复杂逻辑的流程图是多模态模型推理能力的直观体现,MiniCPM-Llama3-V2.5不仅能够轻松看懂流程图中不同模块的文字、箭头之间的空间位置和复杂逻辑关系,还能给出清晰易懂的解释说明。

给妈妈转发一张亚洲饮食金字塔图,但她读不懂英文?

MiniCPM-Llama3-V2.5凭借出色的推理能力,不仅深入理解分析图像里的饮食类型和分布,还能洞察背后的营养均衡需求,进行智能化搭配组合,直接一次性用中文推荐出满满一周的三餐食谱。

全文OCR能力方面,结构化信息提取能力的提升,对于长图长文本的精准识别大有帮助。

例如输入一张包含稠密信息的长文长图,MiniCPM-Llama3-V2.5一字不差地识别出了全文。

上下滑动查看

再给一张要翻阅好几屏的图文复杂交错的长图难图长文本,MiniCPM-Llama3-V2.5也能精准给出正确的回答。

上下滑动查看

再输入一张手机拍摄的火车票,MiniCPM-Llama3-V2.5也能准确提取信息,给出无误的json格式输出。

最后,面壁是开源社区的热心贡献者,也是受益者。

本次MiniCPM-Llama3-V2.5的飞跃表现依托于面壁团队对多模态技术的创新打磨,更离不开Llama3-8B-Instruct作为基座模型的性能基础。

感谢世界优秀同行的卓越工作,令我们站在彼此的肩膀上,伸手摘星,指向更高、更璀璨的科学无垠之处。

我们也将持续回报社区,开源更多优秀模型、数据、infra工具等,将开源开放的星火播撒世界协作创新之苍穹。

参考资料:

MiniCPM-Llama3-V2.5开源地址:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM系列开源地址:

https://github.com/OpenBMB/MiniCPM

Hugging Face下载地址:

https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5


返回网站首页

本文评论
Apple Music迎来史诗升级!新增至1亿首歌_apple music年度最佳音乐
中关村在线消息:10月12日,据相关爆料,Apple Music最近上线了全新功能,歌手和乐队现在可以个性化定制AppleMusic个人主页,可以再个人简介中按照自己的喜好添加出生日期或者成立年...
日期:10-18
谷歌Gemini AI模型即将登陆Pixel8Pro 革新Android体验_google mini
12月8日 消息:据报道,谷歌宣布Gemini AI模型即将首次亮相Pixel8Pro,并计划逐步覆盖整个Android生态系统。Gemini Nano是谷歌新一代大型语言模型(LLM)的本地优先版本,旨在提升设备...
日期:12-08
谷歌 Android Auto 版本 10 已发布:AI 语音助理 Google Assistant 采用全新界面设计
7月17日消息:谷歌在 I/O 2022 上宣布对 Android Auto 进行重大重新设计。它的代号为「Coolwalk」,它改进了汽车的用户界面,以提供更大的信息娱乐显示屏,并引入了分屏模式,以及一...
日期:07-17
SA:2020年上半年全球智能手机显示面板市场总收益达186亿美元(2020中国市场手机份额)
10月12日消息,Strategy Analytics手机元件技术研究最新发布的报告《2020年Q2智能手机显示面板市场份额:收益增长2%,SamsungDisplay继续引领市场》指出,2020年上半年全球智能手机...
日期:08-01
高端商务手机推荐几款好用一点助你职场更上一层楼_,四款顶级商务旗舰手机全面解析
来源:中关村在线以下是我对这篇文章的修改:特斯拉自动驾驶高速撞车letv电视价格华为nfc功能是什么及怎么使用在这个数字化时代,智能手机已成为人们日常生活的必需品。不论是工...
日期:01-27
honda super cub价格「5999 元,本田 Honda Cub e: 电动自行车发布」
IT之家 1 月 13 日消息,本田Honda 近日在国内发布了其电动二轮车品牌 ——Honda e:,并推出了三款电动自行车,售价 5999 元起,但没有公布具体参数。bocloud博云被列入今日,本田官...
日期:01-13
陌陌签约主播在抖音直播被索赔千万违约金:一审判赔300万「陌陌主播跳槽抖音」
10月8日消息,据澎湃新闻报道,中国裁判文书网公布的判决书显示,2019年10月17日,原告天津合尔公司(陌陌科技全资子公司)与被告秦某某签订了《王牌主播直播协议》。约定甲方系乙方直...
日期:10-12
小米 11、MIUI 12.5 将于 2 月 8 日在海外发布(小米11更新到12.5.4)
  IT之家1月30日消息 小米官方账号昨日在推特中表示,将于北京时间 2 月 8 日 20:00 举办线上发布会,在全球发布小米 11 旗舰手机。线上直播活动将在 Facebook、推特、YouTu...
日期:07-10
谷歌宣布推出适用于 Android 和 iOS 的Bard 助手_basic google services app
10月5日消息:在 Made by Google 活动中,谷歌首次推出了 Pixel 8 和 Pixel Watch 2 硬件,并宣布推出了搭载 Bard 的助手,该助手利用生成式 AI 为用户提供个性化的帮助。谷歌公司...
日期:10-05
网红打卡地的兴起消减旅游文化_夺命的野生景点 是如何成为“网红打卡地”的
作者: 乐琰   高温热浪带火了城市周边的避暑休闲游,然而此时却发生了意外。   周末或假期,在四川彭州市龙门山镇小鱼洞社区龙槽沟的河道上,人们铺开桌子搓起了麻将,或在露营...
日期:08-17
3G中国行起航 企业应用聚焦移动营销普及
  近日,“3G中国行—— 企业移动信息化应用高层峰会”在北京举行。这一事件标志着2010年“3G中国行系列活动”在北京正式起航。峰会为企业移动信息化应用带来了前瞻性的观...
日期:07-29
iPhone 15 系列 7 月提前进入备货阶段,主要配置确认发布在即「苹果15将会在什么时候上市」
iPhone 15 系列 7 月提前进入备货阶段,主要配置确认发布在即伴随着时间推进,按照往年惯例,距离新一代 iPhone 机型 iPhone 15 系列的发布只剩下 3 个月左右的时间,而在近日据 ct...
日期:06-25
智慧创新 “连接”未来|中信国际电讯集团全面亮相 2023 MWC 上海「中信国际电讯干嘛的」
通信世界网消息(CWW)2023年6月28日,中信国际电讯宣布,携手旗下澳门电讯、中信国际电讯CPC、中企通信等多家子公司,集中亮相2023上海世界移动通信大会(以下简称“2023 MWC上海”)。...
日期:06-29
#iphone15pro#「iPhone15Pro有望新增2TB选项 同时取消128GB版本」
8月9日 消息:据macrumors报道,来自韩国Naver博客上的一个新闻聚合账号“yeux1122”传言称,有供应商消息证实,iPhone 15 Pro和iPhone 15 Pro Max将提供比iPhone 14 Pro型号多一...
日期:08-09
华为 P60 系列 618 优惠出炉,直降 800 到 1000 元_华为p60价格多少
5 月 26 日消息,华为上线 618 活动,华为 P60 系列成为主力优惠机型,华为 P60 Pro 降价 800 到 1000 元。优惠方面:华为 P60 标准版降价 100 元,起售价为 4988 元,京东平台学生优惠...
日期:05-27
红米k4pro 骁龙875「Redmi K70 Pro首批骁龙8 Gen3 对标小米14」
Redmi K70系列备受关注,此次,据博主数码闲聊站透露,其高配版将搭载高通骁龙8 Gen3移动平台,可能命名为Redmi K70 Pro。报道指出,此款芯片将于10月24日亮相,采用台积电N4P工艺制程,C...
日期:06-24
联想笔记本再添新成员:公布GeekPro系列首款游戏本_联想geekpro值得买吗
今天,联想拯救者突然公布了一位新成员”:GeekPro G5000系列游戏本。阿里巴巴所有股东名单公布熟悉联想产品线的用户对于GeekPro品牌应该还有一些印象,在此前,该品牌用于台式机,产...
日期:02-15
盛邦安全是360的吗「盛邦安全发布半年报,营收同比增长超过40%」
通信世界网消息(CWW)盛邦安全发布2023年度半年报。据报告显示,公司营业收入保持较快增长,报告期内实现营业总收入9301.70万元,比上年同期增长41.43%,其中,网络空间地图业务、网络安...
日期:08-29
美国芯片市场份额「美国芯片巨头一夜暴跌近14%  苹果市值蒸发超6100亿」
10月8日 消息:据中新经纬消息,美东时间7日,美股上演“黑色星期五”,美国三大股指收盘大跌。美国芯片巨头AMD一夜暴跌近14%,市值蒸发151.8亿美元。截至收盘,AMD股价报58.440美元,目...
日期:10-09
新加坡 人工智能「新加坡央行警告人工智能尚未准备好处理货币政策」
3月12日 消息:据国外媒体报道,新加坡金融管理局一位高级政策制定者对目前将人工智能(AI)技术广泛应用于央行政策制定工作表示谨慎态度。负责经济政策的副总裁兼首席执行官爱德...
日期:03-12