您的位置:首页 > 互联网

谷歌超级芯片「芯片战争早已打响,谷歌15个月打造首个TPU,欲和老黄平起平坐」

发布时间:2024-04-01 10:31:27  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】在英伟达统治AI时代硬件的当下,谷歌的TPU却开辟了另一条道路。今天,小编带你了解第一块TPU的前世今生,同时揭开TPU架构的神秘面纱。

在计算的历史上,曾被丢弃或过时的想法仍然很有趣,有时甚至非常有用。

在这方面,我们这辈子能经历的最重要的例子莫过于神经网络了。

多数人可能都了解,在神经网络近70年的历史中,寒冬和泡沫交替出现,——事实上,藏在神经网络背后的专用硬件加速器(ASIC)也是如此。

神经网络和ASIC属于是先有鸡还是先有蛋的关系,大家都知道神经网络在CPU上效率不高,但是,如果没有证据证明神经网络是有用的,公司凭什么要为神经网络投资开发专门的硬件?

然而,正因为没有合适的硬件,神经网络也work不起来......

在历史的周期演进中,构建专用硬件的项目一次又一次地被放弃,最终,作为外来者的GPU打破了僵局。

毫无疑问,我们现在正处于泡沫周期,在大模型的激励下,从初创公司到超大规模企业,都在构建建立自己的硬件加速器。

他们之中的大多数都可能会失败,但也肯定会有成功的设计成为未来计算领域的重要组成部分。

——而谷歌的张量处理单元(TPU)作为第一批大规模部署的加速器,肯定会成为幸存者之一。

当我们在谈论TPU时,我们在谈论什么

为什么谷歌的TPU既有趣又重要?因为这是谷歌,TPU被切实应用于谷歌庞大的服务(搜索、Android、Chrome、Gmail、地图、Play 商店、YouTube、照片),用户超过10亿。此外,谷歌还拥有第三大公共云。

在英伟达的GPU主导了这个AI时代硬件供应的当下,谷歌的TPU是一个真正经历了时间和规模考验的竞品。

以下的内容,小编分成两部分:第一部分讲故事,关于第一个谷歌TPU的前世今生;第二部分讲技术,揭秘TPU的架构细节和性能。

起源

机器学习对谷歌来说是一件大事。毕竟谷歌的既定使命是组织世界信息,使其普遍可用和有用(to organize the world's information and make it universally accessible and useful)。

机器学习帮助谷歌发掘信息的价值,从图像和语音识别到语言翻译,再到大型语言模型,当然也少不了谷歌的摇钱树——年入数十亿美元的广告业务。

2010年代初,谷歌的注意力开始转向深度学习:

2011年:Jeff Dean、Greg Corrado和Andrew Ng发起了关于深度学习的研究项目——Google Brain。

2013年:继AlexNet图像识别项目取得成功后,谷歌以4400万美元的价格收购了由Geoffrey Hinton、Alex Krizhevsky和Ilya Sutskever组成的初创公司。

2014年:谷歌收购了由Demis Hassabis、Shane Legg和Mustafa Suleyman创立的DeepMind,价格高达65000万美元

2013年,当AlexNet的开发者Alex Krizhevsky来到谷歌时,他发现谷歌现有的模型都在CPU上运行。

于是,在公司工作的第一天,他出去从当地的一家电子商店买了一台GPU机器,把它插入网络,然后开始在GPU上训练神经网络。

最终,大家意识到需要自己需要更多的GPU,2014年,谷歌决定以约13000万美元的价格购买40,000个英伟达GPU。

深度学习所提供的能力可以大规模应用于谷歌的各种业务,然而,无论是在技术上还是在战略上,依赖英伟达GPU都不一定是最佳解决方案。

GPU不是ASIC,它不是为神经网络量身打造的,对于需要大规模应用的谷歌来说,相当于要付出很大的额外代价;同时,依赖单一供应商显然也是战略上的重大风险。

谷歌当时有两种选择:现场可编程门阵列(FPGA)和专用集成电路(ASIC)。

当时的实验证明,FPGA的性能打不过GPU,而定制ASIC可能在推理方面产生10倍的性价比优势。

快速交付

开发ASIC的时间成本是一个重要的考量,如果落地周期太长,那么硬件本身也就失去了意义。为此谷歌动用了一切可以快速访问的资源和现有知识。

谷歌迅速招募了一支才华横溢、经验丰富的团队,其中包括David Patterson,——伯克利RISC原始设计的开发者,也是RISC-V指令集架构开发的关键人物。

为了赶时间,谷歌没有去从头开发新的架构。幸运的是,在35年前,就有人为他们准备好了合适的架构。

1978年,卡内基梅隆大学的H.T.Kung和Charles E. Leiserson发表了《Systolic Arrays (for VLSI)》,提出了systolic system。

论文地址:https://www.eecs.harvard.edu/htk/static/files/1978-cmu-cs-report-kung-leiserson.pdf

A systolic system is a network of processors which rhythmically compute and pass data through the system….In a systolic computer system, the function of a processor is analogous to that of the heart. Every processor regularly pumps data in and out, each time performing some short computation so that a regular flow of data is kept up in the network.

systolic system是一个处理器网络,它有节奏地计算并通过系统传递数据......处理器的功能类似于心脏,每个处理器都会定期将数据泵入和泵出,每次都执行一些简短的计算,以便在网络中保持常规的数据流。

作者同时提出了架构的一种应用:矩阵计算。

Many basic matrix computations can be pipelined elegantly and efficiently on systolic networks having an array structure. As an example, hexagonally connected processors can optimally perform matrix computation......These systolic arrays enjoy simple and regular communication paths, and almost all processors used in the network are identical. As a result, special purpose hardware devices based on systolic arrays can be built inexpensively using the VLSI technology.

许多基本的矩阵计算可以在具有数组结构的脉动网络上优雅而有效地执行流水线。例如,六边形连接的处理器可以最佳地执行矩阵计算......这些脉动阵列享有简单而规则的通信路径,并且网络中使用的几乎所有处理器都是相同的。因此,使用VLSI技术可以廉价地构建基于脉动阵列的专用硬件设备。

——这不就来了吗!简单、便宜、还适合算矩阵!真是老天爷喂饭吃。

有了工程师和架构之后,谷歌还与当时的LSI公司(现在是Broadcom的一部分)合作,帮助芯片落地。

另外,全新的芯片意味着需要全新的指令集架构、全新的编译器以及上层软件,这是一个庞大的工程。

2015年初,第一批TPU正式部署在谷歌的数据中心,此时,距离项目启动仅仅过去了15个月,看一下这个庞大的研发团队:

论文地址:https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

为了这个进度,谷歌也不得不做了很多取舍,包括使用较老的工艺(28nm),以及较低的时钟频率(700MHz).

2016年3月,使用了TPU的AlphaGo Zero击败了当时的世界围棋冠军李世石,举世震惊。

TPU架构

在神经网络的运算中,矩阵乘法是关键,下面是一个简单的例子:

那么,TPU是如何计算矩阵乘法的呢?

在上面的故事中,我们提到了TPU的原理:systolic arrays(脉动阵列),假设有如下的2*2矩阵乘法:

计算结果如下图所示。每个角上的方块代表一个乘法/累加单位 (MAC),可以执行乘法和加法运算。

谷歌做芯片

在此图中,黄色值是从顶部和左侧输入矩阵的输入。浅蓝色值是存储的部分总和。深蓝色值是最终结果。

第一步,a11和b11加载到左上角的MAC中,相乘并存储结果。

第二步,a12和b21加载到左上角的MAC中,相乘并添加到先前计算的结果中。这一步得到了结果矩阵的左上角值。同时,b11被传输到右上角的MAC,乘以新加载的a21,并存储结果;a11被传输到左下角的MAC,乘以新加载的b12,并存储结果;

第三步,b21被传输到右上角的MAC,乘以新加载的值a22,结果被添加到以前存储的结果中;a12被传输到左下角的MAC,乘以新加载的b22,并将结果添加到先前存储的结果中。此时得到了结果矩阵的右上角和左下角值。同时,a12和b21被传输到右下角的MAC,相乘并存储结果。

第四步,将a22和b22传输到右下角的MAC,相乘并将结果添加到先前存储的值中,从而得到结果矩阵的右下角值。

至此,2*2矩阵乘法完成。

完整计算系统的最简单表示如下:

首先要注意的是,TPUv1依赖于通过PCIe(高速串行总线)接口与主机进行通信。它还可以直接访问自己的DDR3存储,

更详细的设计可以扩展成下图这样子:

DDR3DRAM / Weight FIFO:权重存储在通过DDR3-2133接口连接到TPU v1的DDR3RAM芯片中。权重通过PCIe从主机的内存预加载,然后可以传输到权重FIFO存储器中,供矩阵乘法单元使用。

Matrix Multiply Unit:256x256大小的矩阵乘法单元,顶部输入256个权重值,左侧是256个input值。

Accumulators:运算结果从脉动阵列的底部汇总到累加器中(内存)。

Activation:激活函数。

Unified Buffer / Systolic Data Setup:应用激活函数的结果存储在统一缓冲区存储器中,然后可以作为输入反馈到矩阵乘法单元,以计算下一层所需的值。

TPU v1执行8位整数乘法,利用量化来避免消耗更大的浮点计算。

TPU v1使用CISC(复杂指令集)设计,只有大约20条指令。这些指令是由主机通过PCIe接口发送给TPU的,而不是从内存中获取的。

矩阵运算采用可变大小的B*256输入,将其乘以256x256恒定权重输入,生成B*256输出,所以需要B次流水线循环才能完成。

TPU的整个执行过程大概像这样子:

Read_Host_MemoryRead_WeightsLoop_StartMatrix_MultiplyActivateLoop_EndWrite_Host_Memory

由于TPU v1的指令集非常简单,可以保证芯片用于解码和相关活动的开销非常低,只有2%的芯片区域专门用于控制。

而24%的芯片面积专用于矩阵乘法单元,29%用于存储输入和中间结果的统一缓冲区存储器。

2013年,TPU v1与英特尔的Haswell CPU和英伟达的K80GPU进行了比较:

TPU v1的MAC数量是K80GPU的25倍,片上内存是K80GPU的3.5倍。

TPU v1的推理速度比K80GPU和Haswell CPU快15到30倍。

TPU v1的相对计算效率是GPU的25到29倍。

我要看飞利浦

时至今日,这个临时赶工的ASIC,已经不断完善和壮大,在英伟达的统治之下,开辟了另一条道路。

参考资料:

https://thechipletter.substack.com/p/googles-first-tpu-architecture


返回网站首页

本文评论
神舟十七号航天员完成首次出舱任务!唐胜杰成我国出舱年龄最小航天员
快科技12月21日消息,据央视新闻官微消息,今天,经过约7.5小时的出舱活动,神舟十七号航天员汤洪波、唐胜杰、江新林密切协同,在空间站机械臂和地面科研人员配合支持下,完成天和核...
日期:12-22
M2UGen体验入口 AI多模态音乐生成框架免费下载地址
M2UGen是一款结合大语言模型的多模态音乐理解和生成框架,旨在协助用户进行音乐创作。它能同时完成音乐理解和多模态音乐生成任务,为音乐创作、音乐理解研究和音乐应用开发提供...
日期:01-03
莫斯利安酸奶怎么样_伊利酸奶
本文目录一览: 1、莫斯利安和安慕希哪个更好?2、莫斯利安和安慕希哪个更好?3、莫斯利安怎么样?为什么不用放冰箱?4、莫斯利安和伊利纯牛奶哪个好?5、莫斯利安和伊利纯牛奶...
日期:06-02
亚马逊第四季度财报净利润4.16亿美元 同比增8%_亚马逊财报2017
  北京时间1月28日消息,亚马逊今天发布了2010财年第四季度财报。报告显示,亚马逊第四季度净利润4.16亿美元,较去年同期的3.84亿美元增长8%;净销售额129.5亿美元,较去年同期的9...
日期:07-26
不怕显卡性能过剩:华擎将发布520Hz刷新率显示器_华擎a520m itx超频
快科技1月7日消息,据媒体报道,华擎将在CES 2024大会上发布多款显示器,其中就包括520Hz刷新率新产品,使玩家不用在担心显卡性能过剩问题。据介绍,这款显示器尺寸为27英寸,刷新率为5...
日期:01-07
“宇宙是什么”再添新猜想_宇宙是什么答案
?身处天地之间,每每仰观俯察,“宇宙是什么”这一问题往往会在脑海中浮现。事实上,在漫长的历史中,人们经常对此问题进行思考,对这一问题的认识也经历了一个复杂的演变过程。三星...
日期:07-27
飞腾CPU助力全国数十所学校点亮信息科技“开学第一课”
金秋九月,丹桂飘香,又是一年开学季。为了迎接新学期的到来,全国各地众多学校组织开展了丰富多彩的“开学第 一课”。这其中,来自天津、北京、湖南、四川的数十所学校,以自主可控...
日期:09-11
火车超售「列车超员、火车票难抢!12306称车库的车都开出去了」
快科技2月17日消息,据国内媒体报道,春节假期最后一天,各地也迎来了返程高峰期,但受供需关系影响,不少网友反映火车票买不到,机票价格也大幅上涨,有班回不去、上不了。魅族还发布新...
日期:02-18
骁龙7 Gen1卖到4千元!HTC U23 Pro开启预售「骁龙7系列手机」
快科技6月12日消息,HTC U23系列手机此前已发布,目前HTC U23 Pro已经在海外开启预售,价格为569欧元(折合人民币约4400元)。据了解,HTC U23 Pro搭载了一块6.7英寸OLED屏幕,分辨率为24...
日期:06-12
迪士尼在中国裁员300多人 主要涉及流媒体服务的员工_迪士尼裁员2.8万 新闻
迪士尼CEO罗伯特·艾格表示,公司即将进行大规模裁员。首轮裁员将于本周开始,第二轮将在4月进行,第三轮将在夏季前进行。预计三轮裁员将导致7000多人失业,而在中国仅裁员就超过了...
日期:03-31
iphone1200万像素和华为4800万「底比iPhone 13 Pro大 华为Mate 50系列用5000万像素大底主摄」
9月3日消息,博主数码闲聊站暗示,华为Mate 50系列主摄是5000万像素,型号可能是索尼IMX766。据悉,Mate 50系列主摄传感器尺寸是1/1.56英寸,单位像素面积为1.0微米,支持像素四合一,可...
日期:09-05
Pika1.0官网体验入口 AI视频生成编辑工具免费软件app下载地址_pikapika 下载
《Pika》是一个由Pika Labs开发的AI视频生成和编辑平台。这个初创公司最近宣布,它在由Lightspeed Venture Partners领投的一轮融资中筹集了 5500 万美元,用于进一步开发其平台...
日期:12-04
腾讯和 Netflix 的《三体》 我谁都不看好_Netflix将拍剧版三体
  来源:爱范儿  难点在叙事视角iphone11内存是LPDDR5吗  三体迷们,只要你愿意,全世界的屏幕都可以为你闪烁 —— Netflix 版《三体》第一季先行中文特辑正式放送!  据悉...
日期:09-30
深圳新晋时尚家居打卡地即将上线,三星新春生活美学馆开业在即
打造科技家居聚能体,解锁艺术潮流新想象,三星新春生活美学馆即将强势登陆鹏城! 12 月 29 日,三星将于深圳龙华壹方天地-C区-B1 中庭举行为期 4 天的展览活动,三星将携旗下核心家...
日期:12-27
三星盖世s4_三星盖世s23+
Samsung Galaxy S4 (三星盖世S4) is a flagship smartphone released by Samsung Electronics in April 2013. It followed the success of Samsung Galaxy S III and conti...
日期:05-31
2010互联网产业大圈点:用户自创建内容超过50%
  微博市场增长速度 创中国互联网应用发展之最   易观智库研究显示,2010年中国微博市场注册用户数量将达到7500万,增长速度创下中国互联网应用发展之最。增长速度创新高...
日期:07-26
快手自研大模型“快意”开启内测_快手mod
8月21日消息,近日,快手自研的大语言模型“快意”(KwaiYii)已开启内测,并为业务团队提供了标准API和定制化项目合作方案。iphone 11a13和12a14性价比air pods pro主动降噪和通透模...
日期:08-22
遭车企“围攻”?懂车帝发布声明!中消协:超九成“第三方测评”涉嫌存在测评标准类问题
(原标题:遭车企“围攻”?懂车帝发布声明!中消协:超九成“第三方测评”涉嫌存在测评标准类问题) 每经记者 董天意每经编辑 裴健如一...
日期:12-12
余承东:华为问界汽车车主净推荐值86.4% 新能源汽车第一高「华为问界m5」
3月23日,华为举办的2023年华为春季旗舰新品发布会上,余承东公布了华为问界汽车更多升级信息。余承东指出,华为强大的研发能力,持续OTA升级提升产品体验,让产品常用常新、体验不断...
日期:03-24