您的位置:首页 > 互联网

如果没有AI算力,大模型这场战役我们可能胜不了

发布时间:2023-12-08 17:37:40  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:明敏 萧箫 ,授权转载发布。

没想到,在ChatGPT爆火后的一年里,竟然出现了一个隐藏“Boss”——

量子位获悉,百度、360等互联网大厂均已开始基于昇腾部署AI模型;而知乎、新浪、美图这样全速推进AI业务的公司,背后同样出现了华为云昇腾AI云服务的身影。

明面上,大模型带动了N卡炙手可热;但另一面,国产算力提供者中的头部企业华为也浮出水面。

有意思的是,上述提到的玩家,目前展现的共性也非常明显:无一例外都是有场景的互联网玩家。

简单解释,就是这些公司在大模型变革之前,基本都在各自的行业中有稳定的业务生态,也有核心的商用场景。

毫无疑问,他们需要更快更高效让大模型引擎转动,可以更快产生最直接的价值,云算力是最合适的选择。

国内算力市场,悄然生变

解题就得从大背景展开,国内算力市场的供给和需求,正在产生方向性变化。

首先是资源的供给,也就是提供算力的市场,出现了变化。

从去年开始,国内市场就出现了“N卡难求”的情况。为此英伟达轮番推出特供版GPU,在算力和功率上一再缩水,但还是受到限制。最近才有风声的HGX H20和两款新的GPU,也被曝可能推迟到明年2月或3月才能发布。

一系列算力供给缩水动作,使得国内市场上已有的英伟达系列显卡进一步稀缺,算力一个月内涨价50%甚至100%已是常态。

据《经济参考报》介绍,由于算力资源持续紧张,国内算力服务公司如汇纳科技,已经在11月中旬拟将所受托运营的内嵌英伟达A100的高性能算力服务器算力服务收费同步上调100%。

与此同时,国内互联网厂商因大模型急速增长的算力需求,又加剧了这种紧张的局面。

先是国内大模型数量激增,10月份统计数据显示,国内已发布了238个大模型。

每一个大模型背后都意味着海量算力的投入,综述《A Survey of Large Language Models》显示,650亿参数大模型LLaMA,在2048块80G A100上训练了21天;而700亿大模型LLaMA2,同样用了2000块80G A100训练。

然而,AI算力需求还会持续上涨。

据OpenAI测算,自2012年以来,人工智能模型训练算力需求每3~4个月就翻一番,每年训练AI模型所需算力增长幅度高达10倍。

△图源OpenAI

显然,随着AI成为全球产业的增速引擎,算力作为背后的驱动力自然关注不小,甚至出现了“谁能争抢到算力,谁就更有先发权”这样的说法。

一方面,如果算力跟不上,无法搭上AI这班快车,直接面临的结果就是在竞争中落于下风,甚至可能被行业抛弃。

360公司创始人周鸿祎曾经谈到,公司如果没有搭上ChatGPT这班车,很有可能会被淘汰。

与之相反,如果及时跟进潮流,公司就能凭借已有场景,快速在行业竞争中获得优势。像是一度裁员12%的美版头条BuzzFeed,在宣布和OpenAI合作使用ChatGPT帮助创作内容后,股价一度暴涨119%。

另一方面,算力的充足与否,又直接决定了拥有AI技术和产品的公司,能否提供长期稳定的服务,从而在这场竞争中拥有先发权。

三星会员活动

即使是在这场潮流中占据主导话语权的OpenAI,也面临算力紧张而无法满足用户需求、被迫将用户“拱手相让”的问题。

例如前不久,ChatGPT出现了几次流量过大、服务器承载不下导致应用响应崩溃的情况,导致国外用户争相涌向谷歌Bard和Anthropic的Claude2;付费订阅产品GPT-4,同样因为服务器流量爆炸而出现“暂停订阅”的情况。

但当下算力受限的情况,导致传统互联网企业要想快速跟上AI大模型相关的业务,无法再单单依靠“买卡”这一条路。

毕竟光是等待算力龙头如英伟达发卡的时间,很可能就已经错过了这一波风口。

相比之下,有场景的互联网玩家,一旦有合适的算力,就能更快接入AI大模型相关的业务,从而在这场竞争中获得先发话语权。

在这样的需求下,像华为云这样的国产算力玩家,再度成为国内互联网厂商们关注的对象。

作为有算力、能提供云服务、最早适应大模型打法的云厂商之一,华为云究竟为何能在一众算力供给者中脱颖而出,为有场景的玩家们所看好?

为什么是华为云?

在行业调研中,行业玩家们对大模型时代的云服务,有4大普遍性诉求:

  • 算力可持续

  • 高效长稳

  • 简单易用

  • 开放兼容

华为mate 50是4g还是5g

而之所以选择华为云,从其“对症下药”的技术细节就能管窥一二。

其架构由下至上,包括AI算力、异构计算架构、AI框架、AI平台、大模型、工具链几个层级,由此构成一个算力充沛、高效稳定、低门槛广生态的云底座。

1、算力可持续

可持续的算力能从最根本上缓解行业玩家们的算力焦虑,同时也是大模型快速炼成、应用落地的基本保障。

在这方面,华为云打造了贵安、乌兰察布、芜湖3大AI云算力中心,提供3大主节点及30+分节点,支持AI算力即开即用。

昇腾AI集群也在今年全面升级,集群扩展至16000卡,成为业界首个万卡集群。它可支持万亿参数大模型分布式训练。

此外在保障算力资源合理分配方面,华为云支持资源弹性伸缩,可根据业务需求实际情况,自动增加或缩减服务器实例或带宽资源,可在保障业务能力的同时节约成本。

2、稳定高效

先来看稳定性。

由于大模型训练过程比传统分布式训练更复杂,导致训练所需计算集群规模空前增加、涉及器件数量往往在百万/千万级别。如果单器件发生故障,就可能导致集群训练中断,且故障原因定位定界复杂。

这就使得当前大模型训练更容易出现故障,训练时间被拉长。

以Meta的OPT-17B训练为例,理论上在1000个80G A100上训练3000亿个单词,需要33天。实际训练却使用了90天,期间出现了112次故障。其中主要问题是硬件故障,导致手动重启35次,自动重启约70次。

△OPT-175B意外中断情况

在这方面,华为云昇腾AI云服务支持裸金属集群进行大模型训练,无虚拟化损失,并行训练效率提升100%。从处理器、算子、框架、平台全链路垂直协同优化,主力场景性能是业界平台的1.5倍以上。

以盘古大模型(2000亿参数)在2048卡上的训练为例,实现了30天训练不中断,长稳率达到90%,断点恢复时长控制在10分钟以内。

此外华为云还实现了千卡预训练故障自动诊断恢复,增强智能运维工具能力,实现分钟级信息获取、2小时定界、24小时提供解决方案。

再来看高效性,这是场景玩家们的迫切需求。

但是千亿参数大模型在训练中需要大量的梯度、参数等进行同步,集群很难实现线性加速比。即,增加了一倍的计算集群规模,但是计算量无法同比增加。比如:

  • 1024卡集群:计算和通讯比例为7:3

  • 2048卡集群:计算和通讯比例为4:6

华为云昇腾AI云服务通过模型+集群的混合并行策略,让模型切分更加平衡,从而实现集群接近线性加速比。

  • 1024卡集群:计算和通讯比例为85:15

  • 2048卡集群:计算和通讯比例为80:20

  • 4096卡集群:计算和通讯比例为70:30

以及在训练成本方面,华为云昇腾AI云服务使用CAME优化器,相较于业内常用方案可节约50%内存用量。

要知道,大模型的海量参数会导致训练时内存消耗空前增加,进一步导致训练成本升高。CAME优化器专为大模型训练而来,获得了2023年ACL杰出论文奖。

3、简单易用降低开发门槛

如今ChatGPT引爆的大模型趋势已经全面铺开,来自千行百业的玩家们都迫切想要快速将大模型接入自己的业务中。

但是大模型开发又是一个复杂的系统工程,从头开始自己摸索会影响落地速度。

所以云服务厂家们纷纷推出了简单易用的开发工具。比如华为云提供了全链路工具链,云化免配置、开箱即用,可实现5倍速开发大模型。

它包括大模型开发工具套件,可自动化、半自动化数据工程,效率提升3倍,5分钟快速构建应用开发。

调试调优部分包含1400+算子沉淀,30+可视化调优部署工具;提供丰富的API能力,可调用盘古大模型100+能力集。

还能将典型模型迁移效率提升到2周内搞定,实现主流场景自主迁移。

4、构建开放兼容生态

最后,并非所有场景玩家都需要从头构建大模型。选择在已有基础大模型上进行微调或者直接使用,是更加降本增效的方案。

那么对于开发者、行业玩家而言,有更多选择就很重要了。

基于这一点业内需求,华为云上线了百模千态社区,企业和开发者能直接使用业界主流的开源大模型,如Llama、GLM等。同时聚合数据集、模型、实践等10万+AI资产。

为了满足开发者的不同偏好,昇腾AI云服务已兼容TensorFlow、PyTorch、RAY、Caffe等AI框架。

进入昇腾AI云服务百模千态专区,仅需3步即可开发自己的大模型。

基于如上云服务能力,华为云已经给业内诸多玩家提供了大模型使能服务。

比如美图仅用30天就将70个模型迁移到了昇腾,同时华为云和美图团队一起进行了30多个算子的优化以及流程的并行加速,AI性能较原有方案提升了30%。

昆仑万维和华为云签署战略合作,双方将在华为云昇腾算力领域展开全面深入合作,致力于打造企业专属模型,支持企业级AI应用,持续赋能千行万业应用创新与场景落地。

在当前算力稀缺、资源不足的情况下,这些场景玩家选择与华为云这样的云厂商联手,来快速增强自身“AI硬实力”。

而这种大背景之下,也涌动着当前的产业趋势:

技术创新的曲线开始趋于平缓,商业创新的曲线开始发力。

新能源车起火爆炸

其中,增速最快的,自然是有场景、有业务的玩家。

场景玩家如何把握AI落地机遇

ChatGPT发布一年以来,AIGC已行至下半场。

上半场,国内外掀起一股基础大模型技术争锋浪潮,“百模大战”态势之下,涌现出一批AI初创公司。

这些公司或掌握底层AI架构基础、或有搭建上层AI工具的经验,依靠技术发布了不少有创意且吸睛的产品,融资更是拿到手软。

福特电马suv

然而,随着相关技术逐渐从开疆拓域走向稳定成熟,AIGC产业也出现了新的变化。

下半场,AI技术公司开始追求产业落地,不少初创公司更是在寻求扩大生态圈的方式。

相比之下,有场景的互联网公司,通过观察AIGC技术优势,依托生态优势、加上算力基础,就能快速扩大影响力,进而在公司中取得话语权。

在这种情况下,技术和场景玩家的身位也在悄然发生变化——

技术玩家,需要“拿锤找钉”,面临进一步扩张技术生态和产品场景的难题。

虽说这些玩家已经具备了成熟的基础大模型或工具链技术,但技术仍旧需要找到场景,才能进一步稳定出圈。

相比之下,场景玩家成为了“拿钉找锤”的一方。

依托已有场景需求和稳定用户生态,这些玩家只需将AIGC技术融入业务,就能进一步实现降本增效。

然而,即便是AIGC技术趋于成熟的当下,想要快速跟进也并非易事,除了底层的算力搭建以外,大模型所需的训练和加速等技术也并非就能“一蹴而就”。

在这样的下半场态势中,像华为云这样底层算力、AI相关技术和平台、生态三者齐备的国内云厂商,在场景玩家的发展中进一步起到了催化剂的作用。

底层算力上,华为云依托自研的昇腾处理器打造的超大规模AI集群,已经由4000卡升级到16000卡集群,能支持万亿级模型训练,不仅速度更快,训练周期也更稳定;

AI相关技术和平台上,除了AI算力之外,华为云还为开发者提供了完善的工具和资源,解决了AI大模型部署从训练、加速到不同框架适配这些难题,进而基于已有的研发经验,给厂商提供运营所需的技术服务;

AI生态上,华为云已经与150多家伙伴、200多家客户,共同构筑了20多个行业大模型以及400多个AI应用场景,加速行业智能化升级。

所以,在当前国际大环境下,有场景的玩家,只需要借助像华为云这样的云厂商提供的技术服务,就能快速将下半场大模型机遇变成红利,而华为云也能给国内的互联网企业提供更多选择。

现有的趋势,也能说明这一点。

美图首个懂美学的AI视觉大模型发布当天,股价单日上涨21.28%,随后更是受到国内图像编辑工具行业的广泛关注;

拓维信息发布的交通CV大模型,如今已在高速公路稽核等行业场景得到应用,这1年一来股价上涨了129.44%……

显然,这些玩家基于自身已有的业务,再依托云厂商提供的大模型和算力,就能快速将场景势能发挥到最大优势。

但无论选择什么类型的云厂商、做出怎样的判断,国内互联网企业都依旧需要回到当前的大环境下,结合客观形势做出判断。

在国外算力购买愈发困难的当下,面临新一轮AI竞争趋势,如何让算力像水电一样即取即用,是所有国内企业都应当要思考的问题。

事实上,如今中国的算力水平实际上已经位居世界第二,占全球市场比重达25%,从2017年到2022年的复合增长率达到48.8%。

当更多的企业愿意投资算力、交易算力,就能推动算力产业进一步降本增效,加快算力向现实生产力转化。

—完—


返回网站首页

本文评论
苹果A17 Pro芯片真翻车了?数码博主直言发热很明显!_苹果a1707详细配置
9月13日凌晨,苹果iPhone 15系列正式发布。这一代的iPhone 15系列其实有点超出外界的预料,苹果并没有在iPhone 15 Pro上带来“A17”芯片,而是带来了一颗“A17 Pro”芯片。不过,虽...
日期:09-23
比亚迪拟500万扩建电池厂!相关负责人:是给苹果供货_比亚迪电池项目
10月11日消息,10月9日上海企事业单位环境信息公开平台网站显示,为满足市场需求和公司自身的发展,比亚迪拟投资500万元建设上海比亚迪有限公司扩建项目。公开信息显示,上海比亚迪...
日期:10-28
PICO 4 VR一体机新品发布:售价2499元起 将推VR版《三体》「pico neo dk版vr一体机」
9月27日消息,PICO在中国市场正式发布新一代VR一体机——PICO 4系列,售价2499元起。这是PICO被字节跳动收购以来首次发布升级换代产品。据悉,PICO 4产品配置达到行业领先水平。...
日期:09-29
腾讯云智能推出“自助式”AI数智人生产_官方网站腾讯云开启
【】4月25日消息,今日,腾讯云智能小样本数智人生产平台首次对外发布,平台可实现“自助式”数智人生产制作。据介绍,腾讯云智能依托自研小样本数智人驱动前沿技术框架,以及基于自...
日期:10-01
韩媒曝光三星S20 Ultra最新渲染图:100倍变焦标识醒目(三星s20ultra是多少倍光学变焦)
  1月19日消息 继昨日有关三星Galaxy S20 Ultra的后置五摄模块设计曝光后,有韩媒结合今日曝光的相关信息设计出一张三星Galaxy S20 Ultra的高清渲染图。   这张三星Gal...
日期:11-26
氢能源动力火车「国内自主研发!全球首辆氢能源智轨电车“出海”马来西亚」
快科技7月16日消息,据报道,日前,全球首辆氢能源智轨电车在湖南株洲顺利装运发车,几天后将从上海港出发运往一带一路”沿线国家马来西亚,这也是首批交付东南亚地区的智轨电车。值...
日期:07-16
谷歌7月份的搜索市场份额由6月份的65.5%下降到65.1%(谷歌发布的“2017年人们搜索些什么”为何能打动你?)
  北京时间8月11日消息,据国外媒体报道,据市场研究公司comScore称,在今年的前7个月里,必应雅虎的搜索市场份额有5个月是保持增长的,它们增长的市场份额有一半来自谷歌,另一半来...
日期:07-22
并非“大更新”?消息称Win11 23H2仅基于22H2优化改进「21h2 win11」
快科技5月19日消息,不久前,有消息称,微软将在今年下半年带来Win11的年度更新23H2。amd锐龙5000国行价格公布深圳苹果直营店买12手机要排队吗现在,有消息称,23H2可能并非一次大规...
日期:05-19
OpenAI公布安全系统 确保AI大模型安全可靠_open ai
12月6日 消息:今日,OpenAI公布了公司在安全方面的举措。OpenAI表示,其安全系统团队处于确保当今现实世界中人工智能模型安全性和可靠性的最前沿。安全系统团队致力于确保人工...
日期:12-06
马斯克变卖1600亿特斯拉股票,特斯拉已成了他的提款机?_马斯克的特斯拉股份
凤凰网科技讯 北京时间12月16日消息,埃隆马斯克(Elon Musk)又食言了,他再次抛售了价值36亿美元的特斯拉股票。有分析师直言不讳地指出,他已经把特斯拉当成了持续资助推特的“自...
日期:12-16
预亏超6亿港元!酷派手机销量不及预期「酷派手机销量怎么样」
酷派手机最近发布盈利警告,预计2022年收入约为2.06亿港元,相较于上年6.65亿港元骤降约69%。公司拥有人应占亏损预计介于6.1亿港元至6.4亿港元之间,相较去年同期的亏损5.72亿港...
日期:03-10
ICANN会议即将召开 Facebook 等国际大牌欲抢滩新顶级域名_ICANN会议
  近日,第41届ICANN会议即将在新加坡举行,据悉CNNIC、中国互联网协会、我国最大的域名注册商中国万网等相关代表将出席本次会议。   国际品牌“忙”力争  热火朝天   ...
日期:07-30
泰坦尼克号3d电影哪年上映的「4K 3D 高帧率重制!《泰坦尼克号》重映预售开启:4月3日上映」
3月24日,《泰坦尼克号》宣布中国内地重映预售开启,将于4月3日在影院上映。导演詹姆斯卡梅隆亲自录制了一段视频,安利内地影迷再度感受大船”的经典爱情故事。刘强东京东员工iph...
日期:03-25
意大利蟋蟀是如何发出声音的?「意大利做出蟋蟀面粉 每天约100万只被制成食材」
欧盟委员会通过规定推动昆虫食品市场的发展。根据新规定,人工饲养的蟋蟀可以冷冻、干燥或制成膏状和粉状,作为食物的组成部分。在此规定的影响下,意大利开始将蟋蟀作为食材使用...
日期:07-10
顺丰全面布局预制菜行业「顺丰战略布局」
  证券时报网讯,据顺丰集团消息,8月31日,2022顺丰预制菜行业解决方案推介会在安徽合肥举办。顺丰推出预制菜行业供应链解决方案,通过构建三位一体的解决方案打通预制菜产业的...
日期:09-06
小米手机2014021「全端自研?曝小米MIUI 14将成为“封箱之作”」
据数码博主@数码闲聊站透露,MIUI 14将是MIUI的最后一个正式大版本,被形容为MIUI的“封箱之作”。他认为MIUI 14是一个优秀的“毕业设计”,但在动效方面仍需改进。同时,他也表示...
日期:10-11
iPhone 15 Pro设计迎革命性变化,受益者为真实用户_苹果15 pro
伴随着iPhone 15系列发布日期的越来越近,关于这个系列确认的消息也越来越多。特别是当彭博社的记者 Mark Gurman出手时,基本上就八九不离十了。因为他被公认为是苹果消息分析...
日期:07-31
亚马逊面向企业的 AI 聊天机器人 Amazon Q 或存在严重幻觉和数据泄露问题引发质疑
12 月 5 日消息:在发布不到一周后,Amazon Q —— 亚马逊对抗 Copilot 的生成式 AI 助手——已面临生存威胁,一份新报告显示这款 AI 助手可能产生严重幻觉。据 The Platformer...
日期:12-05
S13总决赛八强赛赛程时间安排 8强抽签分组介绍_s13比赛
英雄联盟S13全球总决赛所有八强战队已经出炉,LPL的四支战队都获得八强席位,那么8强的抽签分组以及赛程安排如何呢,我们来看下具体的赛程时间。上半区:GEN vs BLGNRG vs WBG下半...
日期:10-30
DuckDuckGo 推出新 AI 工具 DuckAssist:利用维基百科生成自然语言答案
3月9日消息:DuckDuckGo已经成为融入人工智能的最新搜索引擎。该公司宣布了一项名为DuckAssist的新工具,该工具可以自动从维基百科中提取和总结信息以回应某些问题。图片来自D...
日期:03-09