Но есть менее заметная, при этом критически важная часть работы — операционная устойчивость. Речь о runbooks, учениях по аварийному восстановлению (DR) и постоянной работе над метриками RTO/RPO. Хочу поделиться практическим взглядом на эту тему.Runbooks: не документация ради документацииRunbook — это не README и не wiki-страница, которую написали год назад и забыли. Это исполняемый регламент: чёткая последовательность действий при конкретном инциденте, написанная так, чтобы её мог выполнить д...