Telegram Group & Telegram Channel
Вечные проблемы DS-команд

Есть вещи, которые кажутся очевидными любому DS-у хотя бы с уровня мидла. Вы и ваша команда постоянно работаете над ними, стремитесь улучшать, но опыт показывает: гэпы и точки роста всё равно остаются. Это сложнее, чем кажется на первый взгляд. Я вижу это как на примере своей команды, так и в других. О чём я?

Метрики

Мы регулярно пересматриваем метрики. Они бывают разными:

- Бизнес-метрики
- Общие технические метрики
- Метрики ML-моделей

На первый взгляд, с бизнес-метриками всё должно быть просто. Но, как всегда, дьявол кроется в деталях.

Пример: метрика выручки.

- Вы уверены, что измеряете её правильно?
- Прокрашивается ли она в краткосрочных тестах?
- Если прокрашивается, сохранится ли эффект в долгосрочной перспективе?

Допустим, вы улучшили качество прогноза в пользовательском интерфейсе. Обучили новую модель, метрики качества улучшились. А что с выручкой? Вырастет ли она? Ответ даст только долгосрочный тест на несколько месяцев.

Вторая проблема — корреляция оффлайн ML-метрик и онлайн бизнес-метрик.

Например, ROC-AUC улучшился на несколько пунктов. Приведёт ли это к росту выручки? И на сколько процентов?

Бывали ли у вас случаи, когда оффлайн-метрики улучшились, а онлайн — нет? Или наоборот: на оффлайне изменения минимальны, а в онлайне бизнес-метрики резко выросли?

Ещё одна боль — это сбор базы проведённых тестов и датасетов к ним. Система меняется, старые данные теряют актуальность, и база перестаёт быть надёжной опорой.

Качество пайплайнов и оффлайн-среды

Работая над ML-продуктами, вы неизбежно сталкиваетесь с пайплайнами и симуляторами. И здесь тоже полно сложностей.

Система меняется, симуляторы "протухают". Качество датасетов в пайплайне требует регулярной валидации: что-то устарело, что-то изменилось, где-то появилась новая информация.

Постоянные доработки увеличивают время экспериментов. Когда подсчёты занимают полдня, а на дисках заканчивается место из-за артефактов, пора всё переписывать.

Выводы

Качественные метрики и надёжная оффлайн-среда — ключ к быстрому достижению аплифтов. Это позволяет ds-ам быстрее запускать эксперименты и тесты.

Но работа над этими аспектами — постоянная борьба. Здесь важно философское отношение и регулярное выделение ресурсов команды на системные задачи. Радуйтесь каждому стабилизированному компоненту, ведь это результат огромного труда.

Буду рад вашим реакциям 🔥 и историям вашей борьбы 🙃

#tech@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/big_ledovsky/283
Create:
Last Update:

Вечные проблемы DS-команд

Есть вещи, которые кажутся очевидными любому DS-у хотя бы с уровня мидла. Вы и ваша команда постоянно работаете над ними, стремитесь улучшать, но опыт показывает: гэпы и точки роста всё равно остаются. Это сложнее, чем кажется на первый взгляд. Я вижу это как на примере своей команды, так и в других. О чём я?

Метрики

Мы регулярно пересматриваем метрики. Они бывают разными:

- Бизнес-метрики
- Общие технические метрики
- Метрики ML-моделей

На первый взгляд, с бизнес-метриками всё должно быть просто. Но, как всегда, дьявол кроется в деталях.

Пример: метрика выручки.

- Вы уверены, что измеряете её правильно?
- Прокрашивается ли она в краткосрочных тестах?
- Если прокрашивается, сохранится ли эффект в долгосрочной перспективе?

Допустим, вы улучшили качество прогноза в пользовательском интерфейсе. Обучили новую модель, метрики качества улучшились. А что с выручкой? Вырастет ли она? Ответ даст только долгосрочный тест на несколько месяцев.

Вторая проблема — корреляция оффлайн ML-метрик и онлайн бизнес-метрик.

Например, ROC-AUC улучшился на несколько пунктов. Приведёт ли это к росту выручки? И на сколько процентов?

Бывали ли у вас случаи, когда оффлайн-метрики улучшились, а онлайн — нет? Или наоборот: на оффлайне изменения минимальны, а в онлайне бизнес-метрики резко выросли?

Ещё одна боль — это сбор базы проведённых тестов и датасетов к ним. Система меняется, старые данные теряют актуальность, и база перестаёт быть надёжной опорой.

Качество пайплайнов и оффлайн-среды

Работая над ML-продуктами, вы неизбежно сталкиваетесь с пайплайнами и симуляторами. И здесь тоже полно сложностей.

Система меняется, симуляторы "протухают". Качество датасетов в пайплайне требует регулярной валидации: что-то устарело, что-то изменилось, где-то появилась новая информация.

Постоянные доработки увеличивают время экспериментов. Когда подсчёты занимают полдня, а на дисках заканчивается место из-за артефактов, пора всё переписывать.

Выводы

Качественные метрики и надёжная оффлайн-среда — ключ к быстрому достижению аплифтов. Это позволяет ds-ам быстрее запускать эксперименты и тесты.

Но работа над этими аспектами — постоянная борьба. Здесь важно философское отношение и регулярное выделение ресурсов команды на системные задачи. Радуйтесь каждому стабилизированному компоненту, ведь это результат огромного труда.

Буду рад вашим реакциям 🔥 и историям вашей борьбы 🙃

#tech@big_ledovsky

BY Big Ledovsky | блог DS лида


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/big_ledovsky/283

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." For tech stocks, “the main thing is yields,” Essaye said.
from ye


Telegram Big Ledovsky | блог DS лида
FROM American