Telegram Group & Telegram Channel
Инцидент-менеджмент: как тушить IT-пожары?
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?


Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту. Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша, руководитель направления Managed Services в Ozon, и Евгений Антонов, ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность.

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kodakodacast/373
Create:
Last Update:

Инцидент-менеджмент: как тушить IT-пожары?
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?


Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту. Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша, руководитель направления Managed Services в Ozon, и Евгений Антонов, ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность.

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72

BY Кода кода


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kodakodacast/373

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from pl


Telegram Кода кода
FROM American