Telegram Group & Telegram Channel
Вечные проблемы DS-команд

Есть вещи, которые кажутся очевидными любому DS-у хотя бы с уровня мидла. Вы и ваша команда постоянно работаете над ними, стремитесь улучшать, но опыт показывает: гэпы и точки роста всё равно остаются. Это сложнее, чем кажется на первый взгляд. Я вижу это как на примере своей команды, так и в других. О чём я?

Метрики

Мы регулярно пересматриваем метрики. Они бывают разными:

- Бизнес-метрики
- Общие технические метрики
- Метрики ML-моделей

На первый взгляд, с бизнес-метриками всё должно быть просто. Но, как всегда, дьявол кроется в деталях.

Пример: метрика выручки.

- Вы уверены, что измеряете её правильно?
- Прокрашивается ли она в краткосрочных тестах?
- Если прокрашивается, сохранится ли эффект в долгосрочной перспективе?

Допустим, вы улучшили качество прогноза в пользовательском интерфейсе. Обучили новую модель, метрики качества улучшились. А что с выручкой? Вырастет ли она? Ответ даст только долгосрочный тест на несколько месяцев.

Вторая проблема — корреляция оффлайн ML-метрик и онлайн бизнес-метрик.

Например, ROC-AUC улучшился на несколько пунктов. Приведёт ли это к росту выручки? И на сколько процентов?

Бывали ли у вас случаи, когда оффлайн-метрики улучшились, а онлайн — нет? Или наоборот: на оффлайне изменения минимальны, а в онлайне бизнес-метрики резко выросли?

Ещё одна боль — это сбор базы проведённых тестов и датасетов к ним. Система меняется, старые данные теряют актуальность, и база перестаёт быть надёжной опорой.

Качество пайплайнов и оффлайн-среды

Работая над ML-продуктами, вы неизбежно сталкиваетесь с пайплайнами и симуляторами. И здесь тоже полно сложностей.

Система меняется, симуляторы "протухают". Качество датасетов в пайплайне требует регулярной валидации: что-то устарело, что-то изменилось, где-то появилась новая информация.

Постоянные доработки увеличивают время экспериментов. Когда подсчёты занимают полдня, а на дисках заканчивается место из-за артефактов, пора всё переписывать.

Выводы

Качественные метрики и надёжная оффлайн-среда — ключ к быстрому достижению аплифтов. Это позволяет ds-ам быстрее запускать эксперименты и тесты.

Но работа над этими аспектами — постоянная борьба. Здесь важно философское отношение и регулярное выделение ресурсов команды на системные задачи. Радуйтесь каждому стабилизированному компоненту, ведь это результат огромного труда.

Буду рад вашим реакциям 🔥 и историям вашей борьбы 🙃

#tech@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/big_ledovsky/283
Create:
Last Update:

Вечные проблемы DS-команд

Есть вещи, которые кажутся очевидными любому DS-у хотя бы с уровня мидла. Вы и ваша команда постоянно работаете над ними, стремитесь улучшать, но опыт показывает: гэпы и точки роста всё равно остаются. Это сложнее, чем кажется на первый взгляд. Я вижу это как на примере своей команды, так и в других. О чём я?

Метрики

Мы регулярно пересматриваем метрики. Они бывают разными:

- Бизнес-метрики
- Общие технические метрики
- Метрики ML-моделей

На первый взгляд, с бизнес-метриками всё должно быть просто. Но, как всегда, дьявол кроется в деталях.

Пример: метрика выручки.

- Вы уверены, что измеряете её правильно?
- Прокрашивается ли она в краткосрочных тестах?
- Если прокрашивается, сохранится ли эффект в долгосрочной перспективе?

Допустим, вы улучшили качество прогноза в пользовательском интерфейсе. Обучили новую модель, метрики качества улучшились. А что с выручкой? Вырастет ли она? Ответ даст только долгосрочный тест на несколько месяцев.

Вторая проблема — корреляция оффлайн ML-метрик и онлайн бизнес-метрик.

Например, ROC-AUC улучшился на несколько пунктов. Приведёт ли это к росту выручки? И на сколько процентов?

Бывали ли у вас случаи, когда оффлайн-метрики улучшились, а онлайн — нет? Или наоборот: на оффлайне изменения минимальны, а в онлайне бизнес-метрики резко выросли?

Ещё одна боль — это сбор базы проведённых тестов и датасетов к ним. Система меняется, старые данные теряют актуальность, и база перестаёт быть надёжной опорой.

Качество пайплайнов и оффлайн-среды

Работая над ML-продуктами, вы неизбежно сталкиваетесь с пайплайнами и симуляторами. И здесь тоже полно сложностей.

Система меняется, симуляторы "протухают". Качество датасетов в пайплайне требует регулярной валидации: что-то устарело, что-то изменилось, где-то появилась новая информация.

Постоянные доработки увеличивают время экспериментов. Когда подсчёты занимают полдня, а на дисках заканчивается место из-за артефактов, пора всё переписывать.

Выводы

Качественные метрики и надёжная оффлайн-среда — ключ к быстрому достижению аплифтов. Это позволяет ds-ам быстрее запускать эксперименты и тесты.

Но работа над этими аспектами — постоянная борьба. Здесь важно философское отношение и регулярное выделение ресурсов команды на системные задачи. Радуйтесь каждому стабилизированному компоненту, ведь это результат огромного труда.

Буду рад вашим реакциям 🔥 и историям вашей борьбы 🙃

#tech@big_ledovsky

BY Big Ledovsky | блог DS лида


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/big_ledovsky/283

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons.
from us


Telegram Big Ledovsky | блог DS лида
FROM American