# SRE 工作基本准则 **Published by:** [Robin](https://paragraph.com/@robin-8/) **Published on:** 2023-03-07 **URL:** https://paragraph.com/@robin-8/sre ## Content 提前通报要记得服务上线类:如果该上线会影响到相关团队的业务,则需要提前通报到相关团队;维护变更类:如果该维护操作会影响线上服务,则需要提前通报到相关方;故障处理类:处理线上异常时,确保自己或有团队成员协助将信息发布到相关群内进行通报;变更步骤要完备服务上线类:服务上线必须经过审核,严禁未经审核擅自对线上服务进行变更,紧急情况需得到审核人确认方可跳过审核;维护变更类:如有相关变更的SOP则严格按照SOP执行,没有SOP的变更须在严格遵守其余几条军规的前提下,拟订变更步骤后进行变更;故障处理类:有预案的严格执行预案,临时制定的预案需要得到leader的确认方可执行;回滚预案:任何线上变更都要事先准备好回滚预案,一旦操作中出现异常按预案执行回滚。无法回滚的变更需要相关各方及leader确认;分级发布要遵守灰度变更:所有线上变更不可以一次性作用到线上全部流量,至少分级为3步: 少量 --> 部分 --> 全量;暂停检查:生产环境中的第一次暂停,至少停留5分钟做观察,全量完成前的暂停时间不少于10分钟;高峰窗口要避免业务高峰期严禁进行服务上线或维护类变更,可按流程对影响服务稳定性/安全/重要体验的异常进行处理。如有特殊情况需要经由平台或邮件进行紧急审批;服务检查要执行变更前:要有明确的变更检查点列表;变更中:分级暂停期间,严格按照检查点列表进行检查,检查发现异常应尽快回滚;变更后:严格按照检查点list检查验收,检查发现异常应尽快回滚;double check:关键系统/组件的变更需要在灰度检查时double check;线上异常处理流程线上稳定性高于一切;恢复故障为最高优先级;先通报后处理原则:故障发生后,遵循故障通报流程,运维人员要按照通知人员名单,通知相关人员后;采取故障处理措施。先恢复后解决原则:故障发生后,首先考虑尽快恢复服务,允许采取紧急措施先恢复服务,然后再彻底分析并解决问题。先预案后处理原则:故障发生后,运维人员要先对比故障现象,判断是否有预案应对,在没有预案的情况下,再考虑制定新的解决方案。跟进到底原则:接口OP/值班OP整体负责调度资源和跟进操作步骤,故障跟进到底直至恢复并通报恢复状态。Double check原则:为了避免二次故障,故障处理过程中的操作,必须得double check确认(可以是研发或者运维相关同学),当面、电话、邮件、或者jira都可以 ## Publication Information - [Robin](https://paragraph.com/@robin-8/): Publication homepage - [All Posts](https://paragraph.com/@robin-8/): More posts from this publication - [RSS Feed](https://api.paragraph.com/blogs/rss/@robin-8): Subscribe to updates