您的位置:首页 > 互联网

陈天奇等人新作引爆AI界:手机原生跑大模型,算力不是问题了

发布时间:2023-05-02 16:12:20  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,授权转载发布。

从此,大模型可以在任何设备上编译运行。

「我把大语言模型下到我的 iPhone 上,它神奇地跑起来了!」

百度智能翻译在线

五一假期还没过半,大模型领域的技术就已经发展到了这种程度。

图片

对于陈天奇等人开源的新技术,大家一致的评论是「Amazing」。

最近人们都在研究 ChatGPT,大语言模型(LLM)彻底改变了科技领域的格局,但对于 AI 开发者来说,并不是人人都有上万块 A100的。为了跑得起大模型,就要寻找各种优化方法。

在让大模型变小这条路上,人们做了很多尝试,先是 Meta 开源了 LLaMA,让学界和小公司可以训练自己的模型。随后斯坦福研究者启动了 Lamini,为每个开发者提供了从 GPT-3到 ChatGPT 的快速调优方案。

最近这个叫 MLC LLM 的项目可谓一步登天,因为它能让你「在任何设备上编译运行大语言模型。

图片

MLC LLM 为我们在各类硬件上原生部署任意大型语言模型提供了解决方案,可将大模型应用于移动端(例如 iPhone)、消费级电脑端(例如 Mac)和 Web 浏览器。

该项目是由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇等多位研究者共同开发的,参与者来自 CMU、华盛顿大学、上海交通大学、OctoML 等院校机构,同时也获得了开源社区的支持。

图片

  • 项目地址:https://github.com/mlc-ai/mlc-llm

  • Demo:https://mlc.ai/mlc-llm/

借助 MLC LLM 方案,我们可以在移动端部署和运行大型语言模型,例如在 iPhone 上运行聊天机器人:

图片

在 Web 浏览器上运行聊天机器人:

小米redmi2代

图片

当然,在 Windows 和 Linux 上本地运行也是肯定可以的,聊天机器人应用程序能通过 Vulkan 平台在 GPU 上运行:

图片

MLC-LLM 推出不到两天,GitHub 的 Star 量已经接近一千。在社交网络上人们纷纷点赞,表示 MLC-LLM 让我领教了低精度跑 AI 的可怕程度:

图片

也有人晒出了自己的使用体验,iPhone 飞行模式本地跑大语言模型:

图片

简单来说,MLC LLM 是一种通用解决方案,它允许将任何语言模型本地部署在各种硬件后端和本地应用程序上。此外,MLC LLM 还提供了一个高效的框架,供使用者根据需求进一步优化模型性能。

MLC LLM 旨在让每个人都能在个人设备上本地开发、优化和部署 AI 模型,而无需服务器支持,并通过手机和笔记本电脑上的消费级 GPU 进行加速。具体来说,MLC LLM 支持的平台包括:

  • iPhone

  • Metal GPU 和英特尔 / ARM MacBook;

  • 在 Windows 和 Linux 上支持通过 Vulkan 使用 AMD 和 NVIDIA GPU;

  • 在 Windows 和 Linux 上 通过 CUDA 使用 NVIDIA GPU;

  • 浏览器上的 WebGPU(借助 MLC LLM 的配套项目 Web LLM)。

项目概览

图片

为了实现在各类硬件设备上运行 AI 模型的目标,研究团队首先要解决计算设备和部署环境的多样性问题,主要挑战包括:

京东618数据战报

  • 支持不同型号的 CPU、GPU 以及其他可能的协处理器和加速器;

  • 部署在用户设备的本地环境中,这些环境可能没有 python 或其他可用的必要依赖项;

  • 通过仔细规划分配和积极压缩模型参数来解决内存限制。

  • MLC LLM 提供可重复、系统化和可定制的工作流,使开发人员和 AI 系统研究人员能够以 Python 优先的方法实现模型并进行优化。MLC LLM 可以让研究人员们快速试验新模型、新想法和新的编译器 pass,并进行本地部署。

原生部署

为了实现原生部署,研究团队以机器学习编译(MLC)技术为基础来高效部署 AI 模型。MLC LLM 借助一些开源生态系统,包括来自 HuggingFace 和 Google 的分词器,以及 LLaMA、Vicuna、Dolly 等开源 LLM。

MLC LLM 的主要工作流基于 Apache TVM Unity,通过扩展 TVM 后端使模型编译更加透明和高效。

  • Dynamic shape:该研究将语言模型烘焙(bake)为具有原生 Dynamic shape 支持的 TVM IRModule,避免了对最大输入长度进行额外填充的需要,并减少了计算量和内存使用量。

  • 可组合的 ML 编译优化:MLC LLM 可以执行许多模型部署优化,例如更好的编译代码转换、融合、内存规划和库卸载(library offloading),并且手动代码优化可以很容易地合并为 TVM 的 IRModule 转换,成为一个 Python API。

  • 量化:MLC LLM 利用低位量化来压缩模型权重,并利用 TVM 的 loop-level TensorIR 为不同的压缩编码方案快速定制代码生成。

  • 运行时(Runtime):TVM 编译生成的库能够通过 TVM runtime 在设备的原生环境中运行,TVM runtime 支持 CUDA/Vulkan/Metal 等主流 GPU 驱动以及 C、JavaScript 等语言的绑定。

此外,MLC 还为 CUDA、Vulkan 和 Metal 生成了 GPU shader,并通过 LLVM 支持多种 CPU,包括 ARM 和 x86。通过改进 TVM 编译器和运行时,使用者可以添加更多支持,例如 OpenCL、sycl、webgpu-native。

MLC-LLM 的发布让我们再次感受到了陈天奇 TVM 的力量。陈天奇是机器学习领域知名青年学者,2019年任卡耐基梅隆大学机器学习、计算机科学系助理教授。早在2017年,他和他的同时开源了著名深度学习框架 TVM,对业界产生了深远的影响。利用这一工具,机器学习算法可以自动编译成可供下层硬件执行的机器语言,从而可以利用多种类型的算力。

在人们的努力下,我们或许很快就能看到云 + 端侧分别部署大模型的下一代应用。

参考链接:

https://zhuanlan.zhihu.com/p/625959003

https://mlc.ai/mlc-llm/

https://mlc.ai/web-llm/

https://github.com/mlc-ai/web-llm/tree/main


返回网站首页

本文评论
GPU研发「封杀自研CPU、GPU 高通指控ARM赶尽杀绝:回应来了」
ARM是全球移动芯片无冕之王,手机、平板的CPU几乎离不开ARM CPU,而高通则是ARM的大客户之一,然而双方最近翻脸,ARM上个月起诉高通,高通日前反诉ARM,并且曝光了一个惊天猛料。华为ma...
日期:10-30
2021 关于未来安全的几点思考(2021年安全形势)
  2020年是不同寻常的一年。这一年,疫情黑天鹅事件突袭,掀起了“新基建”的又一轮热潮,以5G、大数据、人工智能、云计算等为代表的新技术备受瞩目,远程办公、在线教育、直播...
日期:07-16
2022世界人工智能大会开幕,比邻星球邀您共建社交元宇宙_世界ai智能大会
2022 世界人工智能大会(WAIC2022)于 9 月 1 日- 3 日在上海举行,元宇宙作为虚实融合的下一代互联技术,成为本届大会的“硬核”亮点之一。比邻星球受邀参加本届大会,带来AI虚拟...
日期:09-02
说唱女歌手转行卖烧烤年入百万 原创歌曲曾获8亿播放量_说唱歌手能赚多少钱
中国说唱女歌手杨文曾参加《中国新说唱》节目,走进公众视野。她的原创歌曲在平台上获得了8亿的播放量,但自己没有任何收入,这对她是个巨大的打击。于是她毅然决然飞到英国读研,...
日期:03-09
华为手机折叠屏上市「华为月底再上骁龙8+旗舰!折叠屏市场要变天」
中关村在线消息:10月17日,据相关爆料,华为预计在月底将推出一款全新的P50Pocket,具体发布时间会在本月25日之后,下周会有相应的官方预热新闻。全新的华为P50Pocket或将采用全新...
日期:10-26
苹果再遭集体诉讼1「指控侵犯用户个人隐私,苹果在美国遭遇新集体诉讼」
IT之家 1 月 9 日消息,美国宾夕法尼亚州费城华金・塞拉诺(Joaquin Serrano)近日带头向苹果公司发起集体诉讼,指控苹果公司违反美国多个州关于窃听、隐私和消费者欺诈方面的法规...
日期:01-09
iphone4s有什么优点_后iphone4时代 消费者选择还是相当丰富
  在android被大家认可前,有人曾经说过,市面上的手机只分两类:“iphone和iphone的模仿者”。确实在一段时间里,iphone获得了长足的进步而其他品牌和系统却一度停滞不前,人们似...
日期:07-26
声网与音集协达成合作,提供直播场景中使用音乐录音制品解决方案
7月27日消息,近日,某知名游戏主播因在直播间播放某歌曲且哼唱了副歌部分,被版权方起诉并索赔10万元。随着直播行业蓬勃发展,音乐侵权成了直播行业的版权风险重灾区。近日,声网与...
日期:08-25
华为云物联网平台技术与实践pdf_技术+产业双轮驱动,华为云加速云原生创新
  容器技术提升了企业IT架构的敏捷性,尤其在应对商业发展中的各种不确定性,敏捷的IT架构能够加速应用创新,以适应不断变化的市场节奏。   近年来,随着各企业在云原生方面投...
日期:07-14
特斯拉2021一季度交付量「特斯拉公布2022财报:2023预计交付量将达到180万」
【网易科技1月29日消息】前不久,特斯拉的价格调整在业界引起轩然大波,而特斯拉在近日公布的2022年全年财报也凸显出其降价的“底气”。据财报数据显示,最后一个季度中,特斯拉实...
日期:01-30
管鹏:V5推推永远做非赢利的草根互动平台
炎黄网络CEO管鹏(微博)(腾讯科技配图)腾讯科技讯(李松伟)5月11日消息,腾讯微博“V5推推”发起人之一管鹏日前做客腾讯科技微博在线访谈节目是表示,V5推推不属于任何人,未来将“永...
日期:07-28
Redmi Note 11Pro「第一款预装MIUI 14的千元机 Redmi Note 12 Pro极速版上架接受预约」
今日消息,小米京东自营店显示,Redmi Note 12 Pro极速版上架接受预约,新品会在今晚7点正式发布。4399 梦幻西游百度技术官王海峰海报显示,Redmi Note 12 Pro极速版有三大核心配置...
日期:12-27
当直播间不再卖货「直播就是卖货吗」
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:杨睿琦,授权转载发布。这是一辆正在行驶的汽车,也是卫生巾品牌@高洁丝旗舰店的抖音直播间。暖黄色的星星灯光散落在车...
日期:10-11
电视运动健身app_电视端健身app推荐,当贝健身和氧气瑜伽值得一试!
  对于很多上班族而言,每天忙碌完后总想要出汗发泄自己。但是在长时间的工作下,根本抽不开时间去健身房。今天小编就给大家推荐几款健身软件,能够轻轻松松让大家在家里健...
日期:07-14
知乎“答案奇遇夜”节目单出炉:德云社开魔法学校 安陵容重生(如何评价知乎《答案奇遇夜》晚会?)
  知乎首个情景式剧场晚会“答案奇遇夜”将于1月29日晚8点,在知乎、快手、爱奇艺等平台同步播出。继官宣海报、概念片、嘉宾阵容陆续放出之后,完整节目单也终于在1月26日正...
日期:05-02
长沙凌晨1点马路人流量惊人 像在倒时差:网友称想去打卡 当地人回应
2月19日,湖南长沙,江苏一女子被长沙凌晨1点钟马路人流量惊呆。当事人庄女士称,作为江苏人来到长沙,仿佛在倒时差,老家大概晚上9、10点马路上就没什么人了,长沙这边凌晨1、2点还很...
日期:03-01
过大年有惊喜 京喜直播解密好年货的真实生产线(京喜怎么直播卖货)
  12月30日,京喜宣布“京喜年货节”正式开启,这是今年京喜正式上线后推出的首个年货节,今年的京喜年货节,将打造“三重惊喜”: 惊喜好货、惊喜福利、惊喜体验,为消费者带来省心...
日期:09-14
消息称苹果削减一季度AirPods、MacBook和Apple Watch零部件产量「AirPods产量将削减」
1月4日消息,据国外媒体报道,在消费电子产品需求不理想的大背景下,高端消费电子产品供应商苹果也受到了影响,有报道称他们已经因此削减了几乎所有硬件产品线的零部件产量。从外媒...
日期:01-04
保价争议频发,顺丰终于采取行动了_顺丰保价机制
被各种商家营销套路侵害权益?买到的商品出故障投诉无门? 黑猫投诉平台全天候帮您解决消费难题【消费遇纠纷,就上黑猫投诉】 来源:视觉中国   记者 |白帆;编辑 |殷幼安  近...
日期:09-29
百度总部李彦宏_李彦宏:百度新首页代表未来产业方向
  上周末,2011百度世界大会在北京召开。会上,百度董事长兼CEO李彦宏宣布了百度最新的开放平台战略,并正式发布了百度的全新首页。不仅如此,针对当前火热的移动互联网,百度也公...
日期:07-22