您的位置:首页 > 互联网

生物计算领域,为什么超算安腾比通用超级计算机算得还要快?

发布时间:2024-04-09 22:20:00  来源:互联网     背景:

一直以来,超 级计算机因其无可匹敌的运算实力而在科研界享有“巨擘”之称,大众耳熟能详的莫过于那些荣登全球超算Top500排行榜的翘楚品牌,如Frontier和神威·太湖之光等,它们展现出了卓越的通用高性能计算能力。然而,在生物计算这一细分领域中,即便是这些巨头也会显得有些“力不从心”,难以全面应对诸如大规模分子动力学模拟、蛋白质三维结构预测等极具挑战性的任务。这时,就不得不提在生物计算领域占据显著地位的专用超 级计算机安腾(Anton)了。

安腾超 级计算机 图片来源:D.E. Shaw Research

安腾超 级计算机是由美国D. E. Shaw研究所于2007年首 次发布,专门用于对生命科学研究和生物制药研发领域至关重要的算法——分子动力学模拟算法的加速。在计算分子动力学模拟(Molecular Dynamics, 简称MD)问题时,超算安腾的计算效率比全球最 强的超算Frontier还要高上数十倍。

为什么安腾超 级计算机能比美国Frontier算得还要快?

秘诀就在于安腾超 级计算机的“专项定制”属性。安腾超 级计算机由大量的特定应用集成电路(ASIC)组成,通过一个专门的高速三维环形网络相互连接 。不同于通用超算的一刀切设计,超算安腾的架构专为细粒度事件驱动而设计运算,通过增加计算与通信的重叠来提高性能。

由于安腾超 级计算机主要专注于分子动力学模拟加速,即其所应对的主要任务属于通讯密集型的并行计算范畴。在此背景下,超算安腾在芯片设计、通信网络这两个方面进行了特殊设计,从而有效提升此类任务的计算效率。

512个深度定制ASIC芯片提供强大算力支持

首先,在硬件层面,由于CPU、GPU等通用的算力芯片无法满足特定问题对算力性能的要求,因此,专用超 级计算机常常选择搭载ASIC芯片(即专用集成电路),以针对性地提供解决特定问题所需的强大算力支持。

安腾超 级计算机的核心优势就在于其使用的512个MD专用ASIC芯片。这些芯片经过深度定制,具有针对性强的指令集架构(ISA),能够精确执行分子动力学模拟(MD)中最耗时和最频繁的计算任务,如分子间的长程和短程相互作用力的计算,为这些关键计算步骤提供硬件算法层面的性能优化,例如快速傅里叶变换(FFT)等算法。

图片来源:D.E. Shaw Research

同时,为了减少计算延迟,安腾超 级计算机还设计高度专业化的专用硬件数据路径和控制逻辑,用于评估范围受限的相互作用,并执行电荷扩散与力插值。除了在芯片上密集整合高度定制化的计算逻辑之外,这些流水线还针对每个操作都采用了定制化精度。

“量体裁衣”般的并行计算硬件设计只为提升计算性能

GPU、通用超算等通用的计算架构更多关注的是访存密集型任务的优化,而超算安腾则是针对通讯密集型的并行计算问题进行了特化优化。因此超算安腾在处理高度依赖大量通讯密集型并行计算的分子动力学计算任务时,自然就会比传统的通用超 级计算机架构多出许多天然的优势。

具体来说,超算安腾上运算的分子动力学算法的主要应用领域之一是对蛋白质进行的仿真模拟。这类仿真模拟任务需要计算机记录当前每个原子的位置、运动状态等,之后利用分子动力学模拟计算这些粒子之间相互影响的运算结果。在这样的情况下,每个节点需要承担的运算并不复杂,所以并不需要每个计算单元具有极其高强的计算能力;也不需要大规模数据的输入输出存,所以也不是访存密集型任务。因此在设计上,安腾超 级计算机取消了其它并行计算硬件中十分常见的缓存,也就是不需要很大的存储空间。

例如,对于一个包含25,000个粒子的MD模拟,其整体架构状态只需要1.6兆字节,放到一个由512个节点构成的系统中,每个节点仅占用3.2千字节。鉴于此特性,超算安腾选择在ASIC上仅仅配备SRAM和小型L1缓存,并确保在常规操作条件下,所有的代码和数据都能够妥帖地装载在芯片之上,没有把宝贵的硅片面积用于构建大型缓存或是复杂的内存层级结构,而是将这些资源重点投入到通信和计算性能的提升上。

此外,分子动力学模拟中,最为消耗计算资源的是分子间的长程相互作用力的计算,如静电相互作用等。据统计,在通用处理器上运行的标准MD模拟中,计算静电和范德华力所耗费的时间占到了总体计算时间的约90%。由于这些力的计算都是基于成熟的物理原理和公式得出的,不太可能随力场模型进化而发生巨大改变,基本因此非常适合硬件加速。但是,要想实现MD模拟的显著提速,光是加速这些“核心循环”还不够,还需要对其他相关的计算任务进行同步加速。依据阿姆达尔定律,即使把前述占用90%计算时间的任务的计算效率大幅优化,如果其余10%的计算任务还是维持现状的话,整个系统的最 大加速比也只能达到10倍左右的上限。因此,超算安腾特意划拨了相当一部分硅片面积用于加速那些诸如键力计算、约束条件计算、速度和位置更新等其他关键任务。

playstation sony

服务器摆放与网络结构的特殊设计有效提升通讯效率

在通信层面,由于分子动力学模拟是一种需要大规模并行化的计算密集型方法,因此快速并行分子动力学模拟的实现就需要节点间通信的高带宽和低延迟。为提高通讯效率,安腾超 级计算机也做了一些特别的设计。

例如,整个超算安腾的服务器都被紧密地摆放在一个正方体的机箱中,这样的好处在于节点之间依靠网络互联,紧密排列使得网络的传输距离大大降低,可靠性和速度大大提升,所以速度有了很大的提升。

又比如,超算安腾设计了独特的内存子系统,专门用于积累每个粒子所受的力,这样可以减少计算过程中必要的数据交换。为了进一步提高计算效率,安腾超 级计算机采用了低延迟、高带宽的网络结构,不仅在单个ASIC芯片内部实现了快速通信,还在不同ASIC芯片之间也建立起了高效的互联网络。这个网络特别支持常见的MD通信模式,比如多播和稀疏数据结构的压缩传输,同时也支持协调式的“推送”式通信方式,即生产者主动将结果发送给消费者,无需消费者预先请求数据。此外,系统中还配备了一系列独立的直接内存访问(DMA)引擎,用于卸载计算单元的通信任务,使得通信和计算过程能更紧密地重叠执行,从而最 大程度减少等待时间。

ASIC芯片通过高速通道直接连接,形成三维环形拓扑结构

图片来源:D.E. Shaw Research

通过以上分析可见,安腾超 级计算机通过一系列精密的硬件和软件协同设计,聚焦于加速分子动力学模拟的关键环节,使得其在处理大规模生物分子系统长达百微秒级别的经典分子动力学模拟时表现出前所未有的高效性。

安腾超 级计算机的技术路线无疑为我国超算领域、尤其是专用超算领域的技术研发提供了路线借鉴参考。在生物制药、生命科学、新能源新材料等前沿科技火热发展的重点垂直领域,我们应当加强全栈式的软硬件协同创新,挖掘在特定计算难题上的重大产业和创新机会,不断提升在全球超算竞赛中的竞争力与影响力。


返回网站首页

本文评论
2021 open「OpenAI计划年中发布GPT-5:性能飞跃或将改变人类历史」
3月20日 消息:在最新消息中,OpenAI计划在今年夏季发布GPT-5,这一新一代模型的性能大幅提升,有望进一步推动OpenAI的营收增长。奥特曼在不久前的一次推文中暗示OpenAI的产品将改...
日期:03-20
男子看黄网一夜转账26次被骗450万 网友:色字头上一把刀
近日,一则关于一名男子在深夜被骗近 450 万元的新闻引起了广泛关注。据报道,这名男子在深夜收到一条陌生信息,内容是 “约吗,加我呀……”。出于寂寞的心理,他点开了链接,却不知道...
日期:10-25
蔚来员工待遇怎么样「蔚来员工曝加班近500小时进急诊3次 HR:是员工自愿加班」
【网易科技4月23日报道】近日,一位蔚来汽车的员工爆料称,近半年来业务量大幅增长,导致加班情况愈加严重。该员工提供的加班记录文档显示已加班近500小时。该员工名叫陈女士,她表...
日期:04-23
AI安全辩论:Sam Altman剑桥演讲遭抵制、Llama 2被曝存在潜在风险
要点:1. Sam Altman在剑桥活动中遭到抵制,引发全球AI安全讨论升级,包括联名信呼吁对人工智能制定国际条约。2. MIT的研究指出,开源的Llama2存在潜在风险,可能被滥用以获取危险知...
日期:11-02
加速中小企业数字化转型推进新型工业化_中小型企业数字化转型的路径与方法
近日,2023广州国际创新节在广州市天河区隆重举行。中国工业互联网研究院党委副书记李炜受邀出席并作报告。华为harmonyos有必要升级吗以下为报告内容全文加速中小企业数字化...
日期:01-03
将成为旗下首款屏下摄像头机型 努比亚Z50-Ultra入网_努比亚z18摄像头参数
去年底,努比亚举办了2022年的最后一场新品发布会,带来了新一代影像性能旗舰手机努比亚Z50。作为努比亚下一轮十年的开篇之作,该机搭载了全新升级的35mm定制光学系统,配备第二代...
日期:09-19
百度ai发布会_新春有AI 百度联合多家媒体送温暖到一线
  今年春节前后,百度不但用近20亿元的春节红包给了全国人民一个大惊喜,创造了全民春晚抢红包的新高,而且“小度迎新春 把AI带回家”新春小度送温暖活动也持续刷屏,百度智能音...
日期:06-21
OpenAI正在准备新的开源AI模型
The Information 援引一位知情人士的话说,OpenAI 正准备向公众发布一款新的开源语言模型。报告称,OpenAI 不太可能发布与 GPT 竞争的模型。该公司没有立即回应置评请求。iphon...
日期:09-28
百度地图推出隧道车道级导航 定位不准确可申请100元赔付「百度地图显示道路车道」
8月8日 消息:百度地图全球首次推出隧道车道级导航,为重庆3000万用户解决隧道导航问题。该导航功能通过自研的 “北斗高精” 融合定位技术,实现了进出隧道不漂移、车标稳定跟随...
日期:08-08
中国移动全年分红超800亿 日赚约3.44亿_移动公司年底分红多少钱
3月24日 消息:昨日,中国移动发布2022年业绩报告。2022年实现营收9373亿元,同比增长10.5%;股东应占利润为1255亿元,同比增长8%,以此计算相当于日赚3.44亿。其中,数字化转型收入达...
日期:03-24
小米塑料机身「曝小米新机全系标配无塑料支架,预计为Redmi K70系列」
据数码博主@数码闲聊站爆料,小米Redmi迭代新机全系标配无塑料支架,并搭载极窄2K新直屏,预计为Redmi K70系列。其中高配版本将采用高通骁龙8 Gen 3处理器,配备5120mAh大电池,并支...
日期:07-14
独家:羊了个羊的全域新测试「那个羊羊」
声明:本文来自于微信公众号见实(ID:jianshishijie),作者:唐露尧 阿爽,授权转载发布。“羊了个羊”正在进行的各种全域测试,是业界一个非常好的观察和对标样板。这个曾创下了微信...
日期:03-06
外媒称谷歌成为电信运营商技术以成熟 只差时间问题_谷歌支持电信吗
  北京时间12月31日早间消息,据美国财经博客Seeking Alpha报道,由于美国联邦通信委员会(FCC)未能通过严格的网络中立法规,使运营商可以对谷歌的产品和服务加以限制,谷歌很可能...
日期:07-25
人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!
通信世界网消息(CWW)人工智能技术的迅猛发展正推动着全球创新的浪潮。在AI创新的背后,人工智能框架作为AI根技术,为开发者提供强大的工具和资源,扮演着至关重要的角色。备受瞩目...
日期:06-14
共赴未来!百度智能云千帆大模型平台黑客马拉松即刻开启报名
Gartner 发布的《2023 年中国 ICT 技术成熟度曲线》显示,生成式 AI 目前处于期望膨胀期,预计将在两到五年内产生巨大效益。这意味着,随着大模型的不断迭代和产业的高速演化,生成...
日期:11-07
用上华为ADS2.0高阶智能驾驶 新款问界M5实车曝光:救市靠它了
本月中,新款AITO问界M5(含EV)将发布,其最大的亮点在于搭载了华为最新的ADS高阶智能驾驶系统,可以在不依赖高精地图的基础上,实现高阶辅助驾驶。4月5日,有博主曝光了一组M5智驾版的...
日期:04-06
百度宣布终止收购YY直播 欢聚集团回应:正在积极寻求法律意见_百度收购yy直播后续
1月2日 消息:百度集团于1月1日晚间发布官方公告,宣布其关联公司Moon已决定终止与欢聚集团之前达成的股份购买协议,这意味着涉及36亿美元的收购计划将不再继续。欢聚集团随后也...
日期:01-02
骁龙870+2k屏「2K直屏骁龙8 Gen3旗舰!Redmi K70海外现身:本月发布」
快科技11月1日消息,近日小米POCO一款新机型获得了了印度BIS认证,预计为POCO F6。按照小米以往的规划,该机正是Redmi K70的海外版本,官方此前已经宣布,K70系列将在11月发布。小米...
日期:11-03
性能相比H100提升60%-90%,英伟达AI芯片H200开始供货_英伟达 a100
IT之家 3 月 28 日消息,据日本经济新闻今日报道,英伟达的尖端图像处理半导体(GPU)H200 现已开始供货。H200 为面向 AI 领域的半导体,性能超过当前主打的 H100。中国315诚信品牌名...
日期:03-28
新号吸粉700万、首播卖了1.5亿,但董宇辉“不安全”_董宇辉老师
声明:本文来自于微信公众号卡思数据(ID:caasdata6),作者:叫我娜姐,授权转载发布。单场直播涨粉300万,董宇辉新号收获“开门红”,成为2024年第一个全网瞩目的直播间。1月9日晚上7点...
日期:01-10