происшествия самит google

Site Reliability Engineering: подборка полезных материалов

Собрали для вас самые полезные статьи по Site Reliability Engineering. В материалах ниже вы найдете полезные кейсы, информацию о внедрении SRE и применении отдельных практик ⤵️1️⃣ Error Budget, SLO и мониторинг: советы для начинающих SRE-инженеровКнига Google о SRE, статьи экспертов, документация и обучающие курсы дают исчерпывающие знания о том, как в идеале должен работать SRE в компаниях.

Правда, ключевое здесь – «в идеале». В этой статье мы поговорим о выстраивании рабочего процесса на старте, когда вам нужно выставить первый SLO, рассчитать error budget и мирно обо всем договориться с командой разработки и бизнесом.📋 Читать статью 2️⃣ Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженерыУстановка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE.

DMCA