您的位置:首页 > 互联网

谷歌2020总结「Google SRE 二十年的经验教训」

发布时间:2023-12-11 18:04:12  来源:互联网     背景:

前言

二十年可以发生很多事情,尤其是当你忙于发展的时候。

二十年前,谷歌有一对小型数据中心,每个中心有几千台服务器,通过一对 2.4G 网络链路环形连接。我们使用 Python 脚本(如 "Assigner"、"Autoreplacer "和 "Babysitter")运行我们的私有云(虽然当时我们并不这么称呼它),这些脚本在包含单个服务器名称的配置文件上运行。我们有一个小型的机器数据库(MDB),可以帮助整理和保存单个服务器的信息。我们的工程师小团队使用脚本和配置文件自动解决一些常见问题,并减少了管理服务器小舰队所需的人工劳动。

时光荏苒,Google 的用户为搜索而来,为免费的 GB Gmail 而去,我们的机群和网络也随之发展壮大。如今,就计算能力而言,我们的规模是 20 年前的 1000 多倍;就网络而言,我们的规模是 20 年前的 10000 多倍,而且我们在每台服务器上花费的精力比以前少得多,同时我们的服务堆栈也具有更好的可靠性。我们的工具已经从一系列 Python 脚本发展到集成的服务生态系统,再到默认提供可靠性的统一平台。我们对分布式系统的问题和故障模式的理解也在不断发展,因为我们遇到了新的故障类型。我们创建了 不幸之轮 ("Wheel of Misfortune")[1],编写了 服务最佳实践指南 ("Service Best Practices guides")[2],出版了《Google's Greatest Hits》,今天,我们非常高兴地向大家介绍:

本杰明-特雷纳-斯洛斯,谷歌 SRE 的创建者

网站可靠性工程二十年的经验教训

让我们从 2016 年说起,那时候 YouTube 还在提供 "阿黛尔的拼车卡拉 OK "和永远吸引人的 "Pen-Pineapple-Apple-Pen"等您最喜爱的视频。由于 YouTube 的分布式内存缓存系统出现错误,YouTube 经历了长达 15 分钟的全球中断,导致 YouTube 服务视频的能力中断。以下是我们从这次事件中学到的教训。

1. 缓解事故的程度应与事故的严重程度成正比 (The riskiness of a mitigation should scale with the severity of the outage)

有这样一个笑话:一个人在网上发布了一张在自己家里看到蜘蛛的照片,The Captain 说:"是时候搬到新房子了!"。这个笑话的意思是,对这一事件(看到一只可怕的蜘蛛)将采取严厉的缓解措施(放弃你现在的家,搬到新家)。我们在 SRE 中也有过一些有趣的经历,那就是选择一种风险大于其所要解决的故障的缓解措施。在前面提到的 YouTube 故障事件中,一个冒险的负载削减过程并没有解决故障问题。……反而造成了连锁故障。

我们深刻地认识到,在事故发生期间,我们应该监控和评估情况的严重性,并选择与严重性相适应的故障缓解途径。在最好的情况下,有风险的缓解措施可以解决故障。而在最坏的情况下,故障缓解措施会失灵,导致中断时间延长。此外,如果一切正常,您可以做出绕过标准程序的明智决定。

2. 应在紧急情况发生前对恢复机制进行全面测试 (Recovery mechanisms should be fully tested before an emergency)

在高大的城市建筑中进行紧急消防疏散,是第一次使用梯子的绝佳机会。同样,中断也是第一次尝试危险的负载下降过程的绝佳机会。为了在高风险、高压力的情况下保持冷静,事先练习恢复机制和缓解措施并验证以下几点非常重要:

它们能满足您的需求 你知道如何去做

测试恢复机制还有一个有趣的副作用,就是可以降低执行其中某些操作的风险。自从下面这次混乱的故障后,我们加倍努力进行测试。

3. 金丝雀所有变更 (Canary all changes)

有一次,我们想推送缓存配置变更。我们非常确定这不会导致任何不良后果。但 "非常确定" 并不是百分之百的确定。结果发现,缓存对 YouTube 来说是一个相当关键的功能,而配置更改带来了一些意想不到的后果,使服务完全瘫痪了 13 分钟。如果我们采用渐进式发布策略 金丝雀所有变更 (canaried those global changes)[3],这次故障本可以在对全球造成影响之前得到遏制。在这里阅读有关金丝雀策略的更多信息[4],以及 在视频中了解更多信息[5]。

大约在同一时期,YouTube 稍微年轻一些的兄弟公司 Google Calendar 也经历了一次故障,这也是接下来两节课的背景。

4. 有一个 "大红色(急停)按钮"(Have a "Big Red Button")

"急停按钮"是一种独特但非常实用的安全功能:它应该启动一个简单、易于触发的操作,将触发不良状态的因素还原为(理想情况下)关闭正在发生的一切。"急停按钮" 有很多种形状和大小--在提交潜在的危险操作之前,确定这些红色按钮可能是什么非常重要。我们曾险些触发一次重大故障,还好提交可能触发变更的工程师在变更传播之前拔掉了台式电脑的电源。因此,在计划重大部署时,请考虑什么是我的 "红色按钮"?确保每个服务依赖项都有一个 "红色按钮",以便在紧急情况下使用。更多信息,请参阅 "通用缓解措施"[6]!

5. 仅有单元测试是不够的,还需要集成测试 (Unit tests alone are not enough - integration testing is also needed)

谷歌 2019 技术

啊。……单元测试。它们验证单个组件是否能按照我们的要求执行。单元测试有意限制了测试范围,而且非常有用,但它们也无法完全复制运行时环境和可能存在的生产需求。因此,我们大力提倡集成测试!我们可以使用集成测试来验证作业和任务是否可以执行冷启动。事情是否能按我们希望的方式运行?各组件能否按照我们的要求协同工作?这些组件能否成功创建我们想要的系统?我们在一次 Calendar 故障中吸取了这一教训,在这次故障中,我们的测试并没有遵循与实际使用相同的路径,结果导致大量的测试。..... 这并不能帮助我们评估变更在现实中的表现。

转到 2017 年 2 月发生的一起事件,我们找到了下两个教训。

首先,不可用的 OAuth 令牌导致数百万用户注销了设备和服务,32000 台 OnHub 和 Google WiFi 设备执行了出厂重置。由于登录失败,手动恢复账户的要求增加了 10 倍。谷歌花了大约 12 个小时才完全从故障中恢复过来。

6. 通信渠道!和备份渠道!! 以及这些备份渠道的备份!!!(COMMUNICATION CHANNELS! AND BACKUP CHANNELS!! AND BACKUPS FOR THOSE BACKUP CHANNELS!!!)

是的,那是一段糟糕的时光。你想知道是什么让情况变得更糟吗?各团队都希望能够使用 Google Hangouts 和 Google Meet 来管理事件。但是,当 3.5 亿用户注销了他们的设备和服务时。……回过头来看,依赖这些谷歌服务是一个错误的决定。请确保您拥有非依赖性的备份通信渠道,并对其进行过测试。

然后,2017 年的同一事件让我们更好地理解了 优雅降级 (graceful degradation):[7]

7. 刻意降级性能模式 (Intentionally degrade performance modes)

人们很容易将可用性理解为 "完全正常 "或 "一切正常"...... 但是,通过降级性能模式持续提供最低限度的功能,有助于提供更加一致的用户体验。因此,我们谨慎而有意地构建了性能降级模式——因此在不稳定的情况下,用户可能根本无法看到它(可能现在就在发生!)。服务应优雅地降级,并在特殊情况下继续运行。

下一课是一项建议,旨在确保您的最后一道防线系统在极端情况下(如自然灾害或网络攻击)如期运行,从而导致生产力或服务可用性的损失。

8. 测试抗灾能力 (Test for Disaster resilience)

除了单元测试和集成测试,还有其他类型的重要测试:灾难应急和恢复测试 (disaster resilience and recovery testing)。灾难应急 (disaster resilience) 测试验证您的服务或系统在发生故障、延迟或中断时能否继续运行,而恢复测试 (recovery testing) 则验证您的服务能否在完全关闭后恢复到正常状态。正如 "经受住意外"[8] 中所述,两者都应成为业务连续性战略的关键部分。一项有用的活动还可以是让团队坐下来,以桌面游戏的方式讨论其中一些情景在理论上是如何发生的。这也是一个探索那些可怕的 "如果"的有趣机会,例如,"如果您的部分网络连接意外关闭怎么办?

9. 自动化您的缓解措施 (Automate your mitigations)

google staff software engineer

2023 年 3 月,几个数据中心的多台网络设备几乎同时发生故障,导致大面积数据包丢失。在这次为期 6 天的故障中,根据网络故障发生时的位置、服务负载和配置,估计有 70% 的服务受到了不同程度的影响。

在这种情况下,您可以通过自动采取缓解措施来缩短平均解决时间(MTTR)。如果有一个明确的信号表明某个故障正在发生,那么为什么不能自动启动缓解措施呢?有时,最好先使用自动缓解措施,而将根本原因留待避免对用户造成影响之后再处理。

10. 缩短两次发布之间的间隔时间,降低发布出错的可能性 (Reduce the time between rollouts, to decrease the likelihood of the rollout going wrong)

2022 年 3 月,支付系统发生大面积故障,客户无法完成交易,导致《口袋妖怪 GO》社区日被推迟。原因是删除了一个单一的数据库字段,由于事先已从代码中删除了该字段的所有用途,因此本应是安全的。不幸的是,由于系统的一部分发布速度较慢,这意味着实时系统仍在使用该字段。

由于发布之间的延迟时间较长,尤其是在复杂的多组件系统中,因此很难推段发布特定变更的安全性。频繁发布[9]--在适当测试的情况下--可减少此类故障的意外发生。

11. 单一的全局硬件版本就是单点故障 (A single global hardware version is a single point of failure)

只用一种特定型号的设备来执行关键功能可以简化操作和维护。然而,这意味着如果该型号出现问题,则不再执行该关键功能。

这种情况发生在 2020 年 3 月,当时一台存在未被发现的零日漏洞的网络设备遇到了触发该漏洞的流量模式变化。由于整个网络使用的是同一型号和版本的设备,因此出现了严重的区域性故障。幸亏有多条网络主干线,高优先级流量才得以通过仍可正常工作的替代设备进行传输,才避免了全面中断。

关键基础设施中的潜在漏洞可能潜伏未被发现,直到一个看似无害的事件触发它们。维护多样化的基础设施虽然会产生成本,但却意味着故障与完全故障之间的差别。

就是这样!从谷歌二十年的网站可靠性工程中汲取的 11 条经验。为什么是 11 条经验?嗯,你看,谷歌网站可靠性部门拥有悠久的历史,但仍处于鼎盛时期。

>>>>参考资料

[1] 不幸之轮 ("Wheel of Misfortune") https://sre.google/sre-book/accelerating-sre-on-call/ [2] 服务最佳实践指南 ("Service Best Practices guides") https://sre.google/sre-book/service-best-practices/ [3] 金丝雀所有变更 (canaried those global changes) https://sre.google/workbook/canarying-releases/ [4] 在这里阅读有关金丝雀策略的更多信息 https://storage.googleapis.com/pub-tools-public-publication-data/pdf/24017e52c907294589604a29a86f158828eda078.pdf [5] 在视频中了解更多信息 https://www.usenix.org/conference/srecon18europe/presentation/davidovic [6] "通用缓解措施" https://www.oreilly.com/content/generic-mitigations/ [7] 优雅降级 (graceful degradation) [8] "经受住意外" https://queue.acm.org/detail.cfm?id=2371516 [9] 频繁发布 https://cloud.google.com/blog/products/devops-sre/using-the-four-keys-to-measure-your-devops-performance

腾讯云欠费八十多万

作者丨Adrienne Walcer

编译丨公众号:东风微鸣技术博客(ID:EWhisperCN)

谷歌20周年

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn


返回网站首页

本文评论
周鸿祎:元宇宙的未来是产业元宇宙「腾讯控股元宇宙」
8月30日消息,8月27日,360集团创始人、董事长周鸿祎在第三届上海创新创业青年50人论坛上发表主旨演讲,分享了对创新创业的思考。周鸿祎表示,产业数字化的过程中,企业级服务市场依...
日期:09-11
胡志鹏:AIGC将给世界带来令人叹为观止的创造力,我们要多一些宽容
更多精彩内容,请关注 《2022网易未来大会》专题报道记者:普子胥 胡志鹏:AIGC是通往元宇宙的方便法门吗? (来源:网易科技) 12月19日-23日,2022...
日期:12-23
抖音电商发布羽绒服“品质甄选”质量标准_抖音很火的羽绒服品牌
9月30日 消息:日前,抖音电商发布了关于新增《抖音电商羽绒服“品质甄选”质量标准》的意见征集通知,意见征集期2022年09月29日—2022年10月06日。本规则拟于2022年10月13日首...
日期:10-03
笔记本哪个牌子最好用「笔记本哪个牌子最好」
笔记本电脑在现代人的日常生活中扮演着越来越重要的角色,无论是上班族还是学生党,都需要一台性能稳定、轻便易携带的电脑。那么,笔记本电脑哪个品牌最好呢?下面我们通过搜集相关...
日期:05-29
中兴通讯:锚定“连接+算力”,上半年实现营收超600亿 扣非净利同比增长31.8%
通信世界网消息(CWW)8月18日,中兴通讯发布2023年半年度报告。报告显示,2023年1-6月,中兴通讯实现营业收入607.0亿元,同比增长1.5%;归母净利润54.7亿元,同比增长19.9%;扣非归母净利润4...
日期:08-19
美商海盗船发布iCUE LINK智能组件生态系统——颠覆性创新开启 PC DIY新时代
   2023 年 5 月 30 日 - 为游戏玩家、内容创作者和PC发烧友提供高性能设备和系统的全球领跑者美商海盗船,推出了iCUE LINK智能组件生态系统(以下简称iCUE LINK),开启了更加智...
日期:05-30
OpenAI与迪拜G42合作,瞄准扩张中东市场
划重点:华为手表watch gt3 pro 价格1. 谷歌ceo皮查伊年薪...
日期:10-19
阿里云周靖人:阿里云今日将发布通义千问2.0_阿里副总裁周靖人
10月31日 消息:在2023年的云栖大会上,阿里巴巴集团的创始合伙人、董事长蔡崇信表示,智能化时代已经来临,人工智能将成为新的生产力,推动各行各业快速发展。同时,他强调了算力的重...
日期:10-31
腾讯三体网剧「腾讯和 Netflix 的《三体》 我谁都不看好」
  来源:爱范儿  难点在叙事视角  三体迷们,只要你愿意,全世界的屏幕都可以为你闪烁 —— Netflix 版《三体》第一季先行中文特辑正式放送!  据悉,Netflix 版《三体》由《...
日期:10-02
华为Mate 40立减2000元 支持5G 提前开启双十一大促「华为畅享20-5G」
华为Mate 50已经开售了一个多月,实在是太火爆了,到现在依然是一货难求,从现在的市场来看华为Mate 40系列依然值得入手,这也是目前华为旗下为数不多的拥有麒麟芯+5G的配置,同样有...
日期:10-15
火山引擎DataLeap:为企业提供更加方便高效的代码同步、管理和复用方案
(原标题:火山引擎DataLeap:为企业提供更加方便高效的代码同步、管理和复用方案) 在软件开发过程中,用户需要在不同的项目中同步...
日期:11-09
软银“大瘦身”:愿景基金裁员幅度或达30%,高于外界普遍预期_软银计划注资50亿美元救场WeWork
  记者/李京亚  在软银单季经历毁灭性亏损之后,负责投资的愿景基金部门裁员幅度可能高于外界想象。  北京时间9月29日晚间,彭博社援引知情人士消息报道,软银集团预计将对...
日期:10-03
抢跑618,要做超级英雄的鹿客新品上线苏宁
  自5月中旬的618发布会召开后,苏宁易购向各行业抛出橄榄枝,“好产品、好服务、好价格”继续下沉,全品类全场景共振,引硬核品牌玩家新动作频出,抢占618高地。   以智能锁行...
日期:10-10
美团互助“不限病种”了!一图详解升级规则_美团互助?
  6月28日,美团互助成立一周年,其互助模式也全面升级。升级后,美团互助成为首个“不限病种”的大病互助计划,在覆盖常规102种疾病保障基础上,美团互助“以医保内花费”为参考...
日期:07-14
微软Carina“入职记”:人工智能助力各行业数字化转型
  中国经济周刊-经济网讯 (记者 孙冰) 近几年,越来越多的行业企业都会将“数字化转型”作为未来业务发展的重要战略方向,尤其是今年来,突如其来的新冠疫情,使得企业的传统业...
日期:07-14
黑莓PlayBook上市首月售25万台 5月将超50万(黑莓平板playbook)
(马乔)北京时间5月23日消息,据国外媒体报道,今年4月份RIM黑莓PlayBook平板电脑在历经重重磨难后终于上市销售,但随后又饱受一系列负面消息的影响,最近该款平板电脑的销售势头终于...
日期:07-28
国泰民安图片2020年「男子因长“国泰民安脸”被盗用照片和女性网友聊天」
赵先生今年40岁,长期生活在深圳。十多年前,他开始从事演员工作,因为他的形象气质较为正派,参与过不少企业老总、公安民警等形象的拍摄。几个月前,有朋友发现有人将他的照片P图成...
日期:02-25
iPhone 13到手4388 立减800 双11限购_双十一iphone13会满减吗
iPhone 13已经发售一年,但是热度丝毫不减,现在今年双11依然是苹果的促销主力机型,,今年11·11的双十一价立减800元,到手现在只要4388元,虽然iPhone 14系列发布了,用户对于iPhone 13...
日期:11-06
朋友圈7月十大谣言出炉:暴雨后城市的自来水不能喝?_暴雨自来水还能用吗
8月2日消息,微信安全中心揭晓了七月朋友圈的十大谣言,一起来瞧瞧:1、财政部组织全国会计专业技术资格考试培训辅导活动?近日,有培训机构以全国会计专业技术资格考试命审题专家的...
日期:08-02
大学生流行深夜操场集体爬行 清华也参与 网友:猎奇行为艺术?
继掀起养纸片狗的潮流后,当代大学生又有了新的艺术集体爬行。在不少校园的操场上,能看到十几个人、甚至几十个人组群爬行。据说最初是中传先尝试爬起来的,有人匿名询问有哪些朋...
日期:11-14