您的位置:首页 > 互联网

如何融合不同计算范式?Ray在蚂蚁的规模化应用实践

发布时间:2022-07-16 06:23:04  来源:互联网     背景:

  导语:随着互联网技术发展,新技术不断涌现,这制造了一个意想不到的新问题:打造服务时可能经常多种不同领域技术深度结合,但由于种种原因这些技术通常难以结合的那么好。蚂蚁集团基于开源的分布式计算框架Ray构建融合引擎,在不同场景去解决这个问题,取得了一定成果,现在就让我们来看看他们是怎么做的?

  利用Ray构建融合引擎

  随着互联网的发展,人们倾向于使用新的计算范式来应对不同的场景,新的技术也随之涌现,如OLAP引擎、图计算、流计算、深度学习等。这意味着在解决一个问题时,可能需要两项甚至多项技术进行深度的结合。

  Ray的使用也很简单,在目前比较流行的分布式框架,都有三个比较基础的分布式原语,分布式任务、对象和服务。而常用的面向过程的编程语言中,也刚好有三个基本概念,函数、变量和类。这三个编程语基本概念刚好可以和分布式框架的原语对应起来。在Ray系统中,可以通过简单的改动,实现它们之间的转换。

  但是,在将不同技术结合到一起的时候,会遇到多方面的挑战,包括:

  ● 复杂系统的协调。当多个核心计算引擎组合到一起的时候,系统的复杂性大大上升,也加大了工程师对复杂系统的协调难度;

  ● 性能优化。在进行性能调优工作时,工程师需要面对多种分属不同领域的计算引擎,导致系统难以突破性能瓶颈;

  ● 开发效率。工程师需要熟悉多个引擎如何协同工作,出现问题也难以定位和排查,导致开发效率低下。

  这正是蚂蚁集团开发融合计算引擎的原因,其目标是将多种不同范式的引擎融合在一起,更好的提供服务,融合计算基于分布式计算框架Ray开发而成,具备以下特性:

  ● 简单且通用的API。

  ● 同时支持多个编程语言。

  ● 弹性且可自定义的任务调度。

  ● 分布式状态管理。

  ● 易用的错误处理和故障恢复。

  ● 低成本的DevOps。

  Ray是由伯克利大学RiseLab实验室发起,蚂蚁金服共同参与的一个开源分布式计算框架,它提出的初衷在于让分布式系统的开发和应用能够更加简单。Ray作为计算框架具有敏捷的调度机制,也可以根据计算对资源使用的需求实现异构调度。

  Ray的使用也很简单,在目前比较流行的分布式框架,都有三个比较基础的分布式原语,分布式任务、对象和服务。而常用的面向过程的编程语言中,也刚好有三个基本概念,函数、变量和类。这三个编程语基本概念刚好可以和分布式框架的原语对应起来。在Ray系统中,可以通过简单的改动,实现它们之间的转换。

  左边是一个简单的例子,在这个函数前面需要加入一个“@remote”修饰符,就可以把一个函数转换成为分布式任务。任务通过“.remote”调用执行,返回值是一个变量,又可以参与到其他计算中。

  右边是另一个例子,通过加“@remote”修饰符的方式可以把一个类转变成服务。类中的方法可以通过“.remote”调用变成一个分布式任务,和函数的使用非常相似。通过这种方式可以实现从单机程序到分布式任务的转变,把本地的任务调度到远程的机器上进行执行。

  关于Ray更多的介绍参见:《提效降本:蚂蚁金服如何用融合计算改造在线机器学习》

  在蚂蚁的金融智能技术架构中,融合计算运行于Kubernetes集群之上,Ray作为分布式计算的基础设施,支持包括动态图计算、在线机器学习等应用框架,驱动上层实时风控、知识图谱等应用。

  蚂蚁深度参与了Ray开源项目的开发,在Ray社区贡献位于前二位。截止到2020年10月,前25位贡献者当中有8位蚂蚁工程师,22%的代码由蚂蚁集团贡献。蚂蚁为Ray贡献了包括Java API、容错性GCS等功能特性,并为Ray在大规模落地实践提供了宝贵经验。

  Ray在蚂蚁集团的规模化应用实践

  蚂蚁在18年Ray项目的早期就参与到了项目的开发,长期和Ray开源社区保持密切合作,并深度参与了Ray内核的开发。在蚂蚁内部,我们基于Ray构建了实时图计算、在线计算、在线机器学习等计算平台,以及多个直接运行在Ray之上的分布式业务系统。这些系统在微贷、风控、智能营销、金融智能、金融核心等核心业务领域得到了广泛的应用,平稳顺利地支持了多次双十一大促。

  下面,我们将简要介绍Ray在蚂蚁集团的规模化应用实践。

  首先是在线机器学习系统。

  传统的在线机器学习系统是一系列子系统组成的任务管道,原始的实时数据需要流经过滤、采样、特征工程、训练和部署等系统,才能发挥作用。这就给我们带来了数据一致性、系统稳定性、多平台等挑战。

  蚂蚁基于Ray开发出端到端的在线机器学习架构,如下图。

  这套架构在一个在线机器学习框架中包括实时数据处理、分布式训练以及模型部署三大组件,并通过Ray的分布式计算特性,支持跨编程语言的开发、exactly once、自动化训练和模型更新等。

  在该在线学习系统的运行时里,我们可以看到实时数据处理和训练及部署是高度集成在一起的,外部的实时数据被转换为微批处理,并实时同步给训练组件,然后进行部署,这种设计可以最大化系统效率。这套系统同时支持数据流API和SQL两种调用方式,进一步为业务方降低了使用的学习成本。

  另一个落地场景是大规模并行处理。

  随着业务场景和需求的不断深化扩展,许多在线应用开始承担分布式计算功能,然而,现有的应用架构缺乏分布式计算系统中的任务调度、集群管理、灵活容错 FO 等能力,导致在业务规模化过程中,容易出现集群负载不均、单机瓶颈、资源无法动态隔离等问题。

  银行卡支付一直是支付工具中重要的组成部分。银行卡业务涉及各类金融机构渠道,涉及的机构众多,各个机构的能力各不相同。如何保障用户在大促期间的高支付成功率,让用户的大促体验丝般顺滑存在极大的挑战。当银行卡支付发生异常时,需要尽快做出准确的决策,执行应变操作,以及时减少异常带来的损失。而传统的监控报警提供的秒级指标查询延迟较高,特别是对于决策常用的成功率联合计算指标,延迟更是超过1分钟,决策也因此只能做到分钟级的熔断能力,同时稳定性也不能满足大促的SLA要求。

如何融合不同计算范式?Ray在蚂蚁的规模化应用实践

  为了解决上述问题,我们基于 Ray 打造了Ray-MPP在线计算系统,具备端到端极低延迟、高可用、具备数据准确性保障(exactly once)等特点。

  一方面可以很好的处理在线计算应用中大规模细粒度任务调用的场景,另一方面发挥 Ray 运行时动态扩展的特点,使得系统具备更好的运行时资源动态隔离能力,并在处理任务时具备更强的灵活性。

如何融合不同计算范式?Ray在蚂蚁的规模化应用实践

  Ray-MPP 被运用在金融网络的金融决策链路中,为金融决策的指标查询计算和决策脚本计算提供分布式计算能力。经过实际场景中的检验,Ray-MPP 为业务在计算性能、稳定性、研发效能等各方面都带来了提升。

  未来展望

  目前,Ray项目发展势头良好,并且得到了越来越多的关注。除了蚂蚁之外,Uber、Intel、微软、字节跳动等公司也在积极参与Ray社区。同时,也有越来越多开源项目已经集成进了Ray的生态。

  未来,我们将从扩展性、性能、调度、弹性、生态建设等方面继续提升Ray的能力,把Ray打造成一个稳定、高效、易用、通用的分布式计算底盘,也期待和业界与社区有更多交流探讨。

  同时,我们也正在面向应届毕业生招聘2021年实习生,欢迎自荐和推荐。

  团队介绍

  我们是蚂蚁集团数据技术部,是整个蚂蚁集团数据引擎的底盘,为整个集团的各项业务发展保驾护航。我们打造的蚂蚁集团计算存储基础架构,其技术核心包括金融大数据的开放计算体系,金融级大规模图计算存储,金融智能机器学习平台及系统架构,以及适合金融场景的多模融合计算引擎等方面的研发和攻关。

  依托蚂蚁集团丰富的数字金融和数字生活场景,我们致力于打造新一代大数据和AI基础设施。

  我们的团队横跨美国硅谷和中国北京、上海、杭州和成都。我们追求的工程师文化是开放、简单、迭代、追求效率、用技术解决问题!

  你想要的我们都有!!!

  ● 平台好:顶尖的工程师团队,超大规模数据计算平台,Stanford、Berkeley等一流高校的合作伙伴, SQLFlow等多个自研和开源项目。

  ● 成长快:面对不可多见的一流计算场景,挑战世界级技术难题,主管师兄带你飞。

  ● 福利好:提供业内极具竞争力的薪资,各种补贴我们都帮你想到了。

  ● 活动多:生日会、工程师节日、阿里日、战役庆功、各种团建……来了你就知道了!

  招聘需求

  面向对象:2021.11-2022.10期间毕业的应届毕业生

  岗位类型:

  ● 研发工程师:C/C++, Java, Python, Go

  ● 算法工程师:机器学习

  技术方向:图计算、分布式计算、分布式存储、数据库、人工智能

  工作城市:杭州、北京、上海、成都

  应聘方式:发简历至antcomputing@antgroup.com

  需要注明【岗位+编程语言+技术方向】或者找学长学姐帮你内推。

  期待大家以最帅/最美的姿势跑完招聘流程,等待offer降临!


中兴手机blade

日本乐天海淘网站

返回网站首页

黑鲨更新joyui12.5系统真恶心

格力董明珠节目

乐视max处理器


苏宁易购双十一晚会肖战

万物新生(原爱回收)旗下B2B平台拍机堂再创新高 同比增长超243%
央视点赞抖音创作者itsRae:记录就地过年的异乡人

返回网站首页

本文评论
三星承认遭遇网络攻击,美国用户部分信息受损的原因「三星承认遭遇网络攻击,美国用户部分信息受损」
IT之家 9 月 3 日消息,如果你是三星美国用户,那么你可能需要检查自己是否涉及到信息泄露的问题。IT之家了解到,三星在其支持页面上宣布,其位于美国的系统遭遇了网络安全攻击。据...
日期:09-14
Google+ API发布还需数月
  9月7日上午消息,据美国科技博客网站TechCrunch报道,谷歌社交网络Google+应用程序编程接口(以下简称“API”)的发布可能还需要数月时间。   此消息是一名Google+的开发...
日期:07-22
科技守护文化 荣耀V40探寻遗失的中国色活动收官
  ​1月30日,荣耀V40#探寻遗失的中国色——还原真彩 前所未感#系列活动迎来第三站——南京秦淮灯彩站。荣耀在南京宏信成新尧金地广场高级体验店举办了秦淮灯彩线下体验...
日期:07-10
谷歌公开侵权案甲骨文索赔要求 最高61亿美元(谷歌和甲骨文的版权案2020)
(林靖东)北京时间6月18日消息,据国外媒体报道,应法官要求,谷歌于美东时间本周五公开了一份法庭文件的部分内容,其中包括了甲骨文提出的详细索赔要求。据公开的文件内容显示,甲骨文...
日期:07-30
郭明錤:苹果正研发新式屏幕技术 打造更大iPad和笔记本
  2015年3月9日,在加州旧金山耶尔巴·布埃纳艺术中心举行的苹果特别活动后,该公司首席执行官蒂姆·库克(Tim Cook)站在MacBook前   腾讯科技讯 4月10日消息,据外媒报道,天...
日期:09-21
盲盒经营活动规范指引征求意见:不得通过后台操纵改变抽取结果、随意调整抽取概率等方式变相诱导消费
原标题:   盲盒经营活动规范指引征求意见:不得通过后台操纵改变抽取结果、随意调整抽取概率等方式变相诱导消费 不得设置空盒   每经记者 张蕊;;每经编辑 陈星;;   8月1...
日期:08-17
百度健康疫情指数:我国2~3个月后或将出现疫情高峰「百度全球疫情最新数据统计」
步入十二月,随着“新十条”重磅发布,我国的疫情形势可能会如何发展?疫情峰值大概出现在什么时段?百度健康医典结合百度搜索大数据和百度指数,预测后续流行趋势。根据预测,在“放开...
日期:12-18
支付宝正式接入华为鸿蒙生态「华为将全面支持鸿蒙」
11月4日消息,华为今日在2022开发者大会上表示,正在和支付宝探索基于HarmonyOS原子化服务的更多可能,支付宝正式接入鸿蒙生态。据悉,用户很快将体验到通过智慧搜索,一步直达支付宝...
日期:11-08
猫眼上市 互联网娱乐头号玩家的边界和挑战(猫眼娱乐未来)
  农历戊戌年除夕,港交所最后一声铜锣敲响,为过去一年互联网公司上市潮画下一个句号。作为今天的主角,猫眼继小米、美团之后,也在港交所开启了自己的上市之旅。   2月4...
日期:11-05
郑州富士康低薪多少「郑州富士康薪资翻倍招新人  时薪开至65元」
11月3日 消息:大量员工返乡后,为了弥补产能,除了高薪鼓励员工留下以外,富士康也试图招募新进员工。最新内部招聘信息显示,富士康以高达每小时65元的高价聘用小时工,这比旺季30元...
日期:11-13
奔驰车的广告「大众之后,奔驰车机被曝推送广告_网易订阅」
IT之家 9 月 28 日消息,如今广告真是无处不在,电视机有广告、手机有广告,现在连汽车都要推送广告了,而作为交通工具,安全性是最重要的,车机推送广告势必会对行车安全产生影响。近...
日期:10-01
韦布望远镜发布首张火星照片「韦伯望远镜原理」
科技日报北京9月20日电 (记者刘霞)据英国《新科学家》杂志网站19日报道,詹姆斯·韦布空间望远镜近日发布了其拍摄的首张火星红外图像,捕获了整颗行星的大气数据,这将帮助天文学家...
日期:09-23
AMD将在11月11日发布新一代EPYC处理器「amd epyc rome」
10月29日消息,AMD宣布将在现场直播活动“同超越,共成就_数据中心(together we advance_data centers)”上发布下一代AMD EPYC(霄龙)数据中心处理器。intel酷睿13代苹果iphone 15系...
日期:11-03
将“护花”进行到底!金山毒霸“情人节皮肤”浪漫发布
  将“护花”进行到底!金山毒霸“情人节皮肤”浪漫发布   2月14日,情人节,全世界沉浸在爱的幸福与甜蜜里。在这个特别的日子,永久免费的金山毒霸发布了“浪漫情人节皮肤”...
日期:07-26
5G网络直播_“中国5G·24小时“全国线上大联播 5月16日-17日开启 敬请关注
  2020年5月17日世界电信日期间,一场 “中国5G·24小时”全国线上大联播活动,即将全网开启。5月16日18:30-17日18:30,24小时不间断播出,全民在线见证中国5G崛起,尽览5G时代的美...
日期:04-09
在天猫获超1000万名会员数品牌已超40家「天猫品牌年度会员日」
10 月 8 日消息,距离今年天猫双 11 还有一个月。数据显示,在天猫获得超过 1000 万名会员的品牌已超过 40 家。据介绍,会员可以让品牌直接服务消费者,是品牌在天猫双 11 实现确定...
日期:10-10
还没买到口罩的看过来!百度也能买平价N95口罩(我要买n95口罩)
  武汉新型冠状病毒疫情持续发酵,国家卫建委官方消息,截至21日24时,全国累计报告新型冠状病毒感染的肺炎确诊病例440例,22日,仍有多起确诊病例陆续被爆出。事件也引发了全社会...
日期:01-04
中国网民超4.4亿人 汉语5年内成互联网主宰语言_使用汉语的人数超过多少亿人
  互联网咨询专业提供商The Next Web日前发布了一项统计报告指出,互联网的使用在中国以惊人的速度增长,5年内,汉语将超过英语成为互联网上新的主宰语言。数据显示,21世纪前10...
日期:07-25
MSN博客_微博、QQ、MSN重塑社区邻里之间关系
  “今天要去参加亲戚家的婚礼,全家出动上美发店,连97岁的老母也兴致勃勃在店里洗头、按摩、剪发、吹风来个全套。真够拽的。”   ——这可不是80、90后潮男潮女的微博记...
日期:07-26
Kyligence at Microsoft Build,助力世界非凡洞见
  2019年5月8日,美国,西雅图——为期3天的微软年度开发者盛会 Microsoft Build 2019 在华盛顿州会议中心落下帷幕,Kyligence 受邀出席 Startup Gallery,是全球获此殊荣的八家...
日期:06-12