您的位置:首页 > 互联网

旷视科技MegEngine 正式支持 XLA 啦!_旷视科技 megvii

发布时间:2024-07-19 16:38:25  来源:互联网     背景:

XLA(Accelerated Linear Algebra)是 Google 提出的一个神经网络编译器,可以用于加速 AI 模型的训练和推理。MegEngine1.13.1中也已经支持了 XLA,在训练模型时可以选择开启此项功能,不同的模型可以获得10%~80%不等的速度提升。

主要的目标场景

旷视MegEngine 现在是动态执行的,即 python 中每一个 mge.functional 的调用都对应着底层 gpu 上的一次 kernel 执行。这种模式的好处在于实际的执行方式与代码逻辑一致,所见即所得,非常的灵活;不过其问题是难以优化,性能可能不是最优。

旷视科技 vie

印度智能手机出货量连续三季下降

而 XLA 采取静态执行的方式,会将模型计算过程表达成一张静态计算图,称为 “HLO” (High-Level Optimized)。HLO 中包含计算图的相关操作,张量的数据流程和形状等信息。XLA 随后会对 HLO 进行一系列的优化,并最终生成一个更优的计算图,从而更快的完成计算。而 XLA 的局限性就在于不够灵活,对于 Tensor Shape 改变或者控制流等信息无法很好的表达。

现在 MegEngine 中已经支持了 XLA,模型训练中一些比较静态的场景,我们可以使用 XLA 来进行加速,从而缩短整个训练过程的时间。

使用方法与效果

在使用 MegEngine 进行训练时,可以通过对原来的训练函数增加 xla_trace/partial_trace 装饰器来启用 XLA 编译优化。

当整个模型是完全静态时,我们可以使用 xla_trace 将整张网络表达成一张静态图,然后交由 XLA 做后续的优化编译,后续的执行过程将执行这张优化后的计算图提升速度。

而如果我们模型中有一些动态性,比如训练过程中一些 Tensor Shape 会发生变化,亦或者是存在控制流,我们可以使用 partial_trace,将网络中静态的部分 trace 成一些子图并分别交给 XLA 进行编译优化,而网络中其他部分仍然保持动态执行,同时保证性能与灵活性。

小米12期免息后又收费

下面展示了在 MegEngine 中,XLA 功能开启前后,主流的神经网络模型性能变化。其中蓝色为 XLA 开启之前的训练速度,橙色为 XLA 开启之后的训练速度。在开启 XLA 后,大部分模型的性能可以获得10%~40% 的提升,最多可以超过80%。

旷视科技有限公司官网

为什么叫造车新势力

腾讯二季度利润


返回网站首页

本文评论
小米POCO F5/Pro更多配置曝光:最高12GB 256GB存储「小米pro5g价格」
小米子品牌 POCO 即将推出全球市场的新款手机 POCO F5 系列。据消息人士爆料,新机将提供蓝色、黑色和白色三种颜色选择,以及两种配置:8GB 256GB 和 12GB 256GB 存储。POCO F5...
日期:04-14
微软正在对Teams Store进行改造 管理第三方应用更便捷(微软teams怎么卸载)
  微软宣布,他们将很快推出一个全新设计的Microsoft Teams Store。在重新设计的Teams Store中,用户将迎来一个优化后的登录页面,该页面顶部的走马灯横幅突出了有趣的应用程...
日期:01-03
仙剑奇侠传原名逍遥侠客行上热搜 姚仙:新名包含四大主角_仙剑奇侠传李逍遥是谁
10月9日,《仙剑奇侠传》原名《逍遥侠客行》话题冲上热搜榜首引发关注。据悉,《逍遥侠客行》为单机游戏《仙剑奇侠传》的原定名称,但并没被正式采用。小狗吸尘器最新款是哪一款...
日期:10-11
迪普科技威胁感知大数据平台安全实践——隐匿隧道攻击检测及防范技术
  什么是隐匿隧道攻击?   在实际的网络中,通常会通过各种边界设备、软/硬件防火墙甚至入侵检测系统来检查对外连接情况,如果发现异样,就会对通信进行阻断。如果发起方将...
日期:07-15
ChatGPT,眼瞅着成为“云战场”?
图片来源@视觉中国文丨科技新知,作者丨樟稻,编辑丨伊页如果要在最近几个月的互联网圈里找一个“顶流”,那一定非ChatGPT莫属。它就像一个黑洞,产生的吞噬引力让国内外各大科技公...
日期:03-01
抖音mcn管理平台_抖音治理MCN机构内容乱象,处置违规账号超2000个
7月25日,抖音发布关于治理MCN机构内容乱象的公告称,近期,抖音平台根据相关法律法规要求及平台规则,巡检清理负面不良导向内容,处置违规账号超2000个,对账号所属MCN机构实行警告、...
日期:07-31
杀猪盘,杀到环球影城了
thinkpad 顶配 2017图片来源:   环球影城苹果6s plus质量腾讯Q2财报   操盘人事先通过自己贴钱销售低价单日票的形式,赢取信任,而后开始大势推销单价更高的半年卡,借由环球...
日期:08-02
拼多多2021年货节时间「拼多多投入30亿开启2023年货节 持续15天」
12月26日 消息:拼多多正式启动2023年年货节。期间,平台将联合全国各省市上千个地标产区,优选百万品质商家,从供应源头为“多多好年货”保驾护航。拼多多将全力激发和匹配春节新...
日期:12-26
《王者荣耀》10v10新玩法来了:将长期存在 独立段位系统_王者荣耀v10规则
快科技5月29日消息,目前《王者荣耀》排位主要是5v5,即双方各有5人,五大职业基本是固定死的。而据官方爆料,即将在体验服上线新模式:10v10众星峡谷,期望能够带来一种全新的更自由的...
日期:05-30
怎么理解私域流量「可别再用私域流量解释一切了」
声明:本文来自于微信公众号 甲方财经(ID:jiafangcaijing2019),作者:井寻,授权转载发布。别再用“私域流量”解释一切了当"私域流量"这个概念最早被提出的时候,其实从来没有被真正...
日期:12-21
抖音电商的新版图_新阶段抖音的电商战略
声明:本文来自于微信公众号 光子星球(ID:TMTweb),作者:何芙蓉,授权转载发布。“平台+自营”“高端+下沉”“搜索+内容”……电商行业走到今天,无论是模式还是品类,都在走向大而全...
日期:06-26
从“优秀士兵”到“销售标杆”, 淘车小哥以口碑建立信任
  对于销售行业而言,洞察客户需求并赢得信任是成功路上的关键。作为淘车二手车昆明店的销售标杆,小王服务过的一些客户,已经成为了生活中的朋友。   以真诚服务打消顾...
日期:07-14
ipad pro2017广告「苹果为新款iPad Pro争议广告道歉 并取消在电视上播放计划」
5月10日消息,据外媒报道,苹果公司周二晚间推出的新一代iPad Pro和iPad Air,已开始接受预订,在下周三就将上市,但遗憾的是,苹果为iPad Pro准备的一条广告给他们惹来了麻烦,他们已为...
日期:05-11
RTX 4090接招!AMD RDNA3大核心GPU“玉照”抢先看:性能提升巨大
按计划,AMD将于北京时间11月4日早上4点,召开RDNA3新品发布会,预计推出RX 7000系列显卡。赶在这之前,疑似Navi 31大核心的RDNA3架构GPU玉照”抢先曝光。图中可以看到,中间是一颗大...
日期:11-04
iPhone屏幕被修复的真实原因找到了:iPhone 12有30%的屏幕有缺陷
苹果公司最近在其iPhone显示屏上蚀刻了条形码,用于精确跟踪供应商丢弃的有缺陷屏幕数量。这些条形码非常小,只有特殊设备才能看到。据传,iPhone 12的显示屏上蚀刻的条形码位于...
日期:09-30
三星将推83英寸OLED电视 有望与LG显示建立“OLED联盟”_三星oled65寸电视价格
据Businesskorea报道,三星和LG显示有望建立“OLED联盟”。据业内人士透露,三星电子近日完成了83英寸OLED电视(KQ83SC90A)的兼容性注册,而LG显示是目前唯一能够生产83英寸面板的公...
日期:06-09
为留住马斯克 特斯拉董事会或制定新天价薪酬方案__特斯拉总裁马斯克说
2月21日消息,随着2018年的薪酬方案逐渐实现,特斯拉是否会再次为其首席执行官埃隆·马斯克(Elon Musk)制定新的天价薪酬方案引发关注。分析师认为,为了留住马斯克,特斯拉董事会可能...
日期:03-01
合资最便宜纯电轿车 别克微蓝6新版本上市:11.28万元起_别克新能源微蓝6怎么样
快科技7月8日消息,最便宜的合资纯电轿车上新款了!上汽通用别克宣布微蓝6增加450km舒享Plus版和450km越享Plus版两款新车型,售价区间为11.28-11.78万元。官方还宣布,现下定包含43...
日期:07-09
马斯克:X将推出语音和视频通话功能
当地时间周四(8月31日),埃隆·马斯克在社交媒体平台X(前身为推特)表示,X将允许用户能够在该平台上进行语音和视频通话,且无需手机号码。马斯克周四在X上发帖称,X的用户将不需要手机...
日期:09-03
骁龙8Gen2比苹果A16贵是表象,安卓手机越买越贵幕后操控才是真_骁龙 8cx gen 2 5g
最新外媒报道揭晓了高通骁龙8 Gen 2旗舰芯片的售价,这引发了广大消费者的关注。据相关分析师透露,这款目前安卓手机阵营的旗舰芯片每颗售价达到160美元(约合人民币1137元)。这一...
日期:06-07