# SRE 工作基本准则

By [Robin](https://paragraph.com/@robin-8) · 2023-03-07

---

提前通报要记得
=======

*   服务上线类：如果该上线会影响到相关团队的业务，则需要提前通报到相关团队；
    
*   维护变更类：如果该维护操作会影响线上服务，则需要提前通报到相关方；
    
*   故障处理类：处理线上异常时，确保自己或有团队成员协助将信息发布到相关群内进行通报；
    

变更步骤要完备
=======

*   服务上线类：服务上线必须经过审核，严禁未经审核擅自对线上服务进行变更，紧急情况需得到审核人确认方可跳过审核；
    
*   维护变更类：如有相关变更的SOP则严格按照SOP执行，没有SOP的变更须在严格遵守其余几条军规的前提下，拟订变更步骤后进行变更；
    
*   故障处理类：有预案的严格执行预案，临时制定的预案需要得到leader的确认方可执行；
    
*   回滚预案：任何线上变更都要事先准备好回滚预案，一旦操作中出现异常按预案执行回滚。无法回滚的变更需要相关各方及leader确认；
    

分级发布要遵守
=======

*   灰度变更：所有线上变更不可以一次性作用到线上全部流量，至少分级为3步: 少量 --> 部分 --> 全量；
    
*   暂停检查：生产环境中的第一次暂停，至少停留5分钟做观察，全量完成前的暂停时间不少于10分钟；
    

高峰窗口要避免
=======

*   业务高峰期严禁进行服务上线或维护类变更，可按流程对影响服务稳定性/安全/重要体验的异常进行处理。如有特殊情况需要经由平台或邮件进行紧急审批；
    

服务检查要执行
=======

*   变更前：要有明确的变更检查点列表；
    
*   变更中：分级暂停期间，严格按照检查点列表进行检查，检查发现异常应尽快回滚；
    
*   变更后：严格按照检查点list检查验收，检查发现异常应尽快回滚；
    
*   double check：关键系统/组件的变更需要在灰度检查时double check；
    

线上异常处理流程
========

> 线上稳定性高于一切；恢复故障为最高优先级；

*   先通报后处理原则：故障发生后，遵循故障通报流程，运维人员要按照通知人员名单，通知相关人员后；采取故障处理措施。
    
*   先恢复后解决原则：故障发生后，首先考虑尽快恢复服务，允许采取紧急措施先恢复服务，然后再彻底分析并解决问题。
    
*   先预案后处理原则：故障发生后，运维人员要先对比故障现象，判断是否有预案应对，在没有预案的情况下，再考虑制定新的解决方案。
    
*   跟进到底原则：接口OP/值班OP整体负责调度资源和跟进操作步骤，故障跟进到底直至恢复并通报恢复状态。
    
*   Double check原则：为了避免二次故障，故障处理过程中的操作，必须得double check确认（可以是研发或者运维相关同学），当面、电话、邮件、或者jira都可以

---

*Originally published on [Robin](https://paragraph.com/@robin-8/sre)*