Telegram Group & Telegram Channel
Инцидент-менеджмент: как тушить IT-пожары?
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?


Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту. Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша, руководитель направления Managed Services в Ozon, и Евгений Антонов, ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность.

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kodakodacast/373
Create:
Last Update:

Инцидент-менеджмент: как тушить IT-пожары?
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?


Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту. Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша, руководитель направления Managed Services в Ozon, и Евгений Антонов, ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность.

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72

BY Кода кода


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kodakodacast/373

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from vn


Telegram Кода кода
FROM American