您的位置:首页 > 智能设备

1元=1700000tokens!清华系发布国产Mistral仅2B,老手机都带得动

发布时间:2024-02-02 16:42:11  来源:互联网     背景:

金磊 发自 凹非寺
量子位 | 公众号 QbitAI

一个体量仅为2B的大模型,能有什么用?

答案可能超出你的想象。

因为若是用四个字来概括,那就是“多、快、好、省”:

  • :它是业界第一个在端侧部署多模态的大模型。
  • :一张1080Ti可高效微调、一台机器可以持续训练。
  • :性能跟体量极具反差感,在多项成绩中超越了一众主流“大体量”大模型。
  • :1元=1700000 tokens,成本为Mistral-Medium百分之一



那么,这个能够“以小博大”,颇有四两拨千斤意味的大模型,到底什么来头?

不卖关子,它正是由清华系初创公司面壁智能最新发布的旗舰终端大模型——MiniCPM。



并且团队还给它起了个别具一格的昵称——小钢炮。

而在众多亮点之间,最令人意外的还是小钢炮用2B的“姿势”所表现出来的性能。

例如与同样是采用“以小博大”路数的大模型标杆之作Mistral-7B做比较,小钢炮多项标准测试成绩均胜出:



再把与小钢炮同“体量”的选手拉出来,大部分能力依旧是处于领先,并且英文能力还是较为出众的那种:



即使把Mistral-7B更大的模型拉进来同台比擂,例如Llama2-13B、MPT-13B、Falcon 40B,多项成绩较为出众的仍是小钢炮:



若不论大模型的尺寸,把主流的全部囊括进来,在最接近人评的测试集MT-Bench中比较,小钢炮也取得了较为不错的成绩:



不仅如此,根据面壁智能CEO李大海的介绍:

int4量化版小钢炮,可以在闪存应用压缩75%的情况下,性能可以做到基本无损耗。



有一说一,成绩和榜单是大模型能力的一方面,但更重要的还是要看大模型在实际应用中的效果。

2B“小钢炮”效果一览

老规矩,我们还是从不同维度来看下小钢炮的实际应用效果。

中英夹杂提问,精准翻译成法语

让大模型在两种语言之间做翻译已然是件常见的事情。

团队在现场给小钢炮的翻译任务加了一把难度,中英混合提问,并要求把整句翻译成法语:

Translate this sentence into French: “I am a fresh man on Chinese, do you know how this sentence is translated: 如何用Python创建一个简单的网页爬虫?”



从翻译结果来看,小钢炮准确地理解了中英混合的表述,并按照要求给出了精准的法语翻译。

如果让人类给一句话添加emoji,那么过程大致是要先理解这句话,然后再在恰当的位置塞进emoji表情。

那么这个任务小钢炮是否能hold住呢?

请看结果:



生日是要[庆祝]的,和也精准塞进了恰当位置,最重要是小钢炮理解到了这句话是表达[爱意]。

再如“山东省最高的山是那座山,它比黄山高还是矮?差距多少?”这样的问题,小钢炮也是轻松应对:



小钢炮给自己写代码

大模型对给定的任务写代码现在也是司空见惯了。

如果让大模型给自己写段代码呢?请听题:

编写一个Python程序来实现一个MiniCPM模型(Transformer结构,40层,每层维度为2304,词表大小为122753)。



小钢炮在接收到任务之后,随即开始“自己给自己写代码”,并且每一步的步骤内容也是非常清晰:导入所需库→定义模型结构→定义训练和评估函数→训练模型→评估模型性能。

多模态首次上手机

正如我们刚才提到的,小钢炮的亮点之一就是它是业界第一个在端侧部署多模态的大模型。

在现场,李大海也对此做了相应的展示。

例如先“喂”给手机里的小钢炮一张图,并提问“这个蘑菇的名字是什么?有毒么”,小钢炮就会先看图再作答:

这根蘑菇的名称是“蝇鹅膏”。它有毒,可以引起恶心、呕吐和腹泻等症状。



当然,连续追问、上下文对话也是不在话下:



据了解,上面展示的这些能力都是在量化版小钢炮+OPPO手机+骁龙855芯片这个配置之下完成的。

之所以如此,是因为团队想要展示小钢炮是一个“省钱的大模型”。

怎么理解?

刚才手机里GPU的成本大约600元,每秒7.5tokens,假设运行5年报废,共计170万tokens,则其推理成本仅为1元。

如此,便可以得到一个成本公式:

1元=1700000tokens。

相比GPT-4的推理成本,1元=4700tokens,可以说是指数级的把价格打下去。

即便是与Mistral-medium相比,成本也是其1/100。



这次也同步开源了一个更大也更好展示多模态能力的OmniLMM-12B,玩法就变得更多了。

例如举着手机,在摄像头下方比划石头、剪刀、布,并向小钢炮提问:

我现在玩的可能是什么游戏?



小钢炮看完之后,在理解基础上便会开始作答:

你可能在玩的游戏是石头剪刀布。

然后继续给小钢炮看一眼“拳头”,并发问:

手势在游戏中是什么意思?



继续给小钢炮看一眼“拳头”,并发问:

如何在游戏中赢我?



小钢炮思考片刻后,给出了正确答案:

要在游戏中获胜,另一玩家需要出布。

值得一提的是,从上面的演示中,我们可以看到小钢炮在处理过程中是有一段时间的延迟。

现场也有人调侃说“我看这个视频演示没有加美颜”(指加速处理)。

对此,面壁智能联合创始人、清华大学副教授刘知远回答说:

没错,我们不加“美颜”,比较朴实。
而且小钢炮在多模态这块还是提高的空间的。

怎么做到的?

整体来看,面壁智能在技术路线上一直高举“高效”大旗,主要是从AI的三大要素作为突破口,即算力、算法和数据。

在算力层面上,面壁智能认为“Infra是大模型创业护城河”,Infra可以决定一家创业公司的技术上限。

若是没有一个足够“能打”的Infra,即使短期内能够打造较好的模型,但越往后、越深入时会发现很快就会遇到技术瓶颈。

因此,在早年前,团队便在业内较早地提出了BMTrain,一个分布式的高效训练框架。

有了它,很深入地优化工作就可以快速地结合Infra落地实现。

除此之外,团队陆续还推出了高效推理框架BMInf、高效压缩框架BMCook,以及高效微调框架BMTune等等。

有这些具体的工具,便形成了面壁智能在算力层面的杀手锏——面壁ModelForce,全流程优化加速套件平台。



在算法层面上,面壁智能在技术发展过程中所积累出来的利器则是面壁模型沙盒(Model Sandbox)。

这实则也是一种方法论,可以将大模型从过去的炼丹形式变成了一种实验科学。

而在历经上千次的模型沙盒实验之后,团队在算法中的各种细节上也得到了一系列业界最优配置。

例如最优批次大小(batch size),可以大幅节省大模型训练时的token量;再如所有尺寸的模型可以通过最优的超参数的配制,保证训练任意大小的模型取得最好的效果等等。



最后在数据层面上,优秀的数据也决定了大模型最后性能的成败。

而这次小钢炮的诞生,面壁智能仅仅是用了所积累的优质数据中,通过方法论所精选出来的1T。



值得一提的是,为了行业更好的交流和发展,面壁智能开源了训练、退火两个阶段来的数据配方来供参考。

除此之外,与小钢炮相关的更多技术细节以及如何在手机上部署的教程等,均已经在GitHub中开源。



感兴趣的小伙伴,可以在文末链接处了解更多详情~

不过最后,还有一个问题值得讨论来一波:

大模型,为什么往“小”了搞?

其实在2023年,在大模型以小博大方面,便已经开始有了苗头。

最为典型的,就是小钢炮此次对标的Mistral-7B。

在它刚刚出道之际,便以更小的“姿势”击败了更大体量的Llama2-13B、Llama 1(34B)等一众大模型。

这就为“比大更大”内卷下的模型圈带来了一定启发。



不过在此背后,大模型往“小”了做,所体现的是一种更大的趋势。

一方面,从大模型从2022年底爆火至今,一个非常明显的变化就是从专注训练,逐渐转向推理。

这是一个技术发展必然的结果,要从比性能和结果,到比谁的大模型更好用;而这个“用”,最好、最直接的体现就应当是在端侧谁可以更“多快好省”地运行。

对此,李大海表示:

站在大模型时代之下,我们都在提的一个概念便是“AI原生应用”;这个时代需要的全新操作系统,就是AI原生应用+AI原生硬件。
而其中的AI原生硬件,其实很简单,就是只要能在端侧运行大模型的硬件就是原生硬件。
因此,端侧的大模型就显得格外重要。

另一方面,市场的表现也是印证大模型往“小”发展的一点。

苹果mr头显或在春季发布

自从去年7月开始,非常明显的一点是,众多主流手机厂商、PC、汽车品牌,陆续在宣布接入大模型。

手机厂商例如华为、小米、荣耀、OPPO、Vivo、三星等;车企包括小鹏、蔚来、理想、吉利等等。

需求之大,可见一斑。

值得一提的是,从小钢炮在GitHub开源的内容来看,目前它已经在众多品牌的老机型上做了部署实验。

因此,老手机上跑大模型也成为了一种可能。



不过细心的朋友也注意到了,面壁智能其实从成立至今,也仅有短短一年的时间。

这就不禁让人发问:一年时间是如何在技术上做到的这般突破?

其实在此背后,更多的是清华系成员们在公司成立之前,长久以来在技术上的积累与跟进。

早在2018年,面壁智能的核心技术团队在BERT发布之后,便聚焦在清华NLP实验的相关工作,发布过全球首个知识指导的预训练模型ERNIE。

随后在2020年,他们也作为“悟道”大模型首发主力阵容发布了全球第一个20亿级中文开源大模型CPM 1,也持续参与了之后的CPM 2和CPM 3。

除此之外,在2022年,在开源相关工作中,面壁智能核心成员也参与到了OpenBMB开源社区的成立与运作。

由此可见,面壁智能的核心技术成员是属于中国最早进行大模型研究的那一批。



正是基于这样的技术积累,也就不难理解面壁智能为何能够在短短一年时间内交出如此之多的“作业”了:



据了解,截至目前,面壁智能拥有100多人的科研团队。

虽然平均年龄仅为28岁,但清北含量高达80%,也有来自阿里、字节、百度等国内外知名大厂的工程团队。

加上团队还主打一个“双CP”组合,即大将里的“小哥哥”+“小鲜肉”里的大将,这种经验与创新的碰撞,或许也是推动发展进程的原动力之一。



诚然,开年小钢炮的发布给大模型带来了不少惊艳,但也正如团队所说,相关工作还有许多需要改进之处。

因此面壁智能在接下来的新进展,是值得关注的。

One More Thing

在小钢炮发布现场,一张五道口大模型Valley图格外吸睛。

用李大海的话来说:

这是全中国大模型最密集的地区。



嗯,五道口,不愧是“宇宙中心”。

开源地址(内含技术报告):

MiniCPM GitHub:
https://github.com/OpenBMB/MiniCPM

OmniLMM GitHub:
https://github.com/OpenBMB/OmniLMM


返回网站首页

本文评论
索泰gtx1060 6g_索泰公布 RTX 4090 显卡售价:AMP EXTREME AIRO 旗舰型号 1700 美元
  10 月 6 日消息,索泰海外官网现已公布三款 RTX 4090 显卡的售价,分别为 1600 美元(约 11344 元人民币)、1650 美元(约 11699 元人民币)和 1700 美元(约 12053 元人民币)...
日期:10-09
vivo平板新机发布最新消息「vivo 新款平板电脑通过 3C 认证入网,预计为 iQOO Pad Air」
IT之家 1 月 29 日消息,vivo 有一款型号为“iPA2451”的平板电脑产品通过了国家 3C 质量认证,支持 44W 快充,随附 V4440L0A0-CN 充电器,由东莞华贝电子科技有限公司代工。上个月...
日期:01-29
300w快充的手机多久上市_240W超级闪充将于明年上市 首发手机厂商又是iQOO?
  近些年来,随着手机市场的竞争愈发激烈,各大手机厂商为了稳定自身客户群,不断对自家产品进行各方面的优化。从机身外观到手机充电速度再到摄像头,国内安卓手机的更新速度已经...
日期:10-09
iPhone 13中秋减800 现到手4388 分期免息_苹果官网分期24期免息划算吗
来源:中关村在线中企动力域名解析元宇宙现状毒 得物 app而虽然iPhone14在本周已经发布了,但是iPhone 14的性能实在是不敢恭维,仍然采用iPhone 13同款的A15芯片,性能毫无提升。但...
日期:09-12
美股三大股指重挫英伟达跌超9%「纳斯达克100指数单周下跌5.8% Meta英伟达股价遭受重创」
9月17日消息,受通胀居高不下影响,以科技股为主的纳斯达克100指数本周下跌5.8%,是8个月以来表现最差的一周。当地时间周五收盘时,纳斯达克100指数中有9家公司创出新低,Meta、英伟...
日期:09-19
三星Galaxy S23 Ultra外观介绍「三星Galaxy S23 Ultra外观细节曝光:回归圆润风格 屏幕接近四边等宽」
  随着年底的临近,大家关注的焦点也逐步转移到了搭载新一代高通旗舰平台骁龙8 Gen2的新一代顶级旗舰上,其中作为老牌机皇的三星的新一代年度旗舰Galaxy S23系列自然成为了...
日期:10-09
折叠屏和旗舰机哪个好「买三款折叠屏旗舰机 国庆办公不用带电脑」
主流折叠屏目前有大致有两种。一种是把手机小型化的竖向折叠屏,一种是扩大屏幕的横向折叠。从实际的体验来讲,折叠屏存在的意义在于屏幕的扩大化带来的便捷操作。那么屏幕变大...
日期:10-30
OPPO Reno8新品发布会5月23日举行_opporeno8
  5月16日消息,根据之前的爆料,OPPO Reno8系列将有三个版本,其中有两个版本会首发骁龙7 Gen1和天玑1300,另一个版本搭载了天玑8100-Max。  今日,OPPO官宣OPPO Reno8新品发布...
日期:07-16
华星光电17.3英寸3K笔记本触控屏幕交付
  5月25日消息,最近展会上,TCL华星向业界展示了17.3英寸的3K轻薄触控屏,这是现阶段全球最大的可量产笔记本In-cell触控屏。同期,TCL华星官微发布消息,该屏幕已在武汉工厂进入量...
日期:12-09
苹果imac一体机32寸何时发布_苹果正在测试更大的iMac 约32英寸显示屏的机型
据彭博社的马克·古尔曼称,苹果正在测试更大的iMac,包括一款约32英寸显示屏的机型。在他最新的Power On时事通讯中,古尔曼表示,这些iMac仍处于早期开发阶段,因此他预计最早要到20...
日期:07-11
海信金刚4水滴屏手机曝光:11月1日发布
  10月24日消息 根据海信手机官方微博的消息,新款金刚4手机将会在11月1日发布,新机主打安全,长续航还搭载了水滴屏,一起来看一下吧。多边平台的商业模式麒麟820soc5g芯片互联...
日期:07-24
新iPad Pro厚度或仅为5.9毫米 无耳机接口_ipad pro有3.5mm耳机孔吗
  从种种消息源来看,新款 iPad Pro 离我们已经不远了,今天我们又获取到了关于这一款新设备的最新消息。根据推特上此前曝光过 iPhone XS 和 iPhone XR 信息的用户透露,即将发...
日期:07-24
oppofindx2发布会_Find X获2018年度创新产品奖,OPPO以创新诠释手机未来形态
  在手机领域,与众不同的创新设计总能紧紧吸引消费者的眼球。就拿OPPO今年6月底推出的OPPO Find X来说,科技感十足的升级式摄像头、正反无孔的超凡一体机身等诸多创新的设计...
日期:07-24
富士康回应苹果“砍单”:不评论客户及产品信息「富士康影响苹果订单」
  来源:e公司  文/严翠;苹果airpods pro2在地铁上听不见  针对苹果公司以需求减弱为由,已通知国内供应商减产AirPods、Apple Watch和MacBook元件之消息,富士康1月4日晚回...
日期:01-04
小米MIX 3真机曝光 窄下巴搭配无开孔设计「mix4顶部小孔」
    (原标题:疑似小米MIX 3真机上手视频曝光:滑动屏幕很“带感”谷歌手机年销量天玑1000plus荣耀新机  9月4日消息 在荣耀Magic 2宣布之后,小米林斌突然在微博晒出了小米MIX...
日期:07-23
华为拟向股东分配股利614.04亿元,超13万名员工分享_网易科技_华为员工持股分红
更新:多位华为内部人士向21世纪经济报道记者表示,4月2日上午公司内部刚刚发了分红公告,每股分红价格为1.58元,近几年来,华为股价均稳定在7.85元/股,而持股分红是员工整体薪酬包中...
日期:08-26
塔城文旅项目「迷塔城文旅元宇宙IP发布暨迷塔城1933上海元宇宙文旅科技展开幕仪式成功举行」
来源:中关村在线魅族mx4 root特斯拉马斯克辞职为实现城市“数字与实景孪生”,构建“元宇宙文旅科技”,响应上海市人民政府7月8日发布的《上海市培育“元宇宙”新赛道行动方案》...
日期:09-17
小米poco m5系列将发布_曝新机小米POCO C50:将于1月3日印度发布
  12月28日消息,今日,有外媒曝光了小米新机POCO C50的发布时间:下周二。此前曾有消息称该设备将会于11月在印度发布,但是小米推迟了发布时间。柚安米官网  小米POCO C50是...
日期:12-30
新 AirPods 曝光,发布时间确认「新air pods什么时候发布」
本周苹果已经官宣,将在北京时间 10 月 31 日早 8 点,举办今年的第二场秋季发布会。种种迹象表明,本次苹果将推出多款 Mac 新品,硬件升级将集中在对处理器的提升方面。不过,最新消...
日期:11-27
OPPO N1 mini现已开售 清新三色迎夏天「oppo n1手机」
  OPPO N1 mini在10日4G发布会上首次亮相之后,紧接着便于6月11日正式开售,OPPO在11日联合QQ空间首发N1 mini,售价2699元。而在15日左右,线下专卖店也将同步开售。雪铁龙ami纯...
日期:07-26