Мастер-классы по SRE на конференции Teх.Диалог
Все, кто так или иначе занимается сопровождением и обслуживанием высоконагруженных систем сталкиваются с отказами. Просто потому что если взять среднее время наработки на отказ условной виртуалки в 500 дней, то при наличии тысячи виртуальных серверов чисто математически сегодня у вас должны упасть два и это если просто ничего не трогать.
А мы трогаем. Релизы, работы, рост данных, внешние факторы (такие как подъем нагрузки и отказы внешних сервисов, телеграм, ты читаешь?) стабильности не добавляют.Как со всем этим жить, подробно и по шагам расскажем на втором дне конференции Teх.Диалог. Начнем как обычно с мониторинга, просто потому что ехать на машине с заклеенной старыми газетами лобовухой несколько непродуктивно.
habr.com