Telegram Group & Telegram Channel
Инцидент-менеджмент: как тушить IT-пожары?
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?


Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту. Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша, руководитель направления Managed Services в Ozon, и Евгений Антонов, ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность.

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kodakodacast/373
Create:
Last Update:

Инцидент-менеджмент: как тушить IT-пожары?
Хорошо, когда система работает как часы — ни багов, ни аварий, ни проблем. К сожалению, в реальном мире так не бывает: баги стреляют на продакшене, диски в серверах останавливаются, а экскаваторы рвут кабели в датацентры. Не можешь победить — возглавь 🚨

И тут в дело вступает инцидент-менеджмент. То есть организация процесса обнаружения проблемы, поиска ее корня, устранения влияния и последствий.

Для того, чтобы все это сделать, нужно очень сильно постараться. Постоянно работать над инструментами обсервабилити и алертинга, готовить регламенты и обучать команду действиям при авариях, на уровне каждого домена иметь инструменты для полу-ручного решения тех или иных проблем. И чем лучше все это отстроено, тем меньше потерь понесет бизнес, когда что-то все же сломается. Об этом сегодня и хочется поговорить: как организовать инцидент-менедмент на уровне большой компании, чтобы влияние аварий на бизнес было минимальным? Разобраться в этом нам поможет Андрей Чупейкин, CTO блока платформы в Ozon.

Разберем в выпуске:
🚨Что такое инцидент-менеджмент? Какова его основная цель? Это просто система как тушить загоревшееся или нечто большее?
🚨Кто должен решать проблемы — тот, кто написал код или отдельная команда спасателей?
🚨Как координируется сам процесс решения инцидента? Какова структура команды для решения инцидентов? Какие роли в ней нужны и важны?
🚨Что делать, если проблема уже есть, но плана решения еще нет?
🚨Как понять, что пожар потушен?
🚨Как происходит процесс расследования и анализа корневой причины (root cause analysis) инцидентов?


Этот эпизод, как и весь сезон, выпускается при поддержке команды сервиса путешествий Туту. Ребята меняют опыт миллионов путешественников к лучшему с помощью технологий. Специальный гость от Туту — Андрей Борзов заместитель технического директора по эксплуатации. Расскажет о том, как роботы помогают решать инциденты.

Ведут Виктор Корейша, руководитель направления Managed Services в Ozon, и Евгений Антонов, ведущий технический менеджер в Yandex Infrastructure, автор канала Тимлид Очевидность.

🎧Слушайте подкаст «Кода кода» в Яндекс музыке, Apple podcasts и много ещё где по ссылке https://kodakoda.mave.digital/ep-72

BY Кода кода


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kodakodacast/373

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Founder Pavel Durov says tech is meant to set you free After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices.
from id


Telegram Кода кода
FROM American