Telegram Group & Telegram Channel
Вечные проблемы DS-команд

Есть вещи, которые кажутся очевидными любому DS-у хотя бы с уровня мидла. Вы и ваша команда постоянно работаете над ними, стремитесь улучшать, но опыт показывает: гэпы и точки роста всё равно остаются. Это сложнее, чем кажется на первый взгляд. Я вижу это как на примере своей команды, так и в других. О чём я?

Метрики

Мы регулярно пересматриваем метрики. Они бывают разными:

- Бизнес-метрики
- Общие технические метрики
- Метрики ML-моделей

На первый взгляд, с бизнес-метриками всё должно быть просто. Но, как всегда, дьявол кроется в деталях.

Пример: метрика выручки.

- Вы уверены, что измеряете её правильно?
- Прокрашивается ли она в краткосрочных тестах?
- Если прокрашивается, сохранится ли эффект в долгосрочной перспективе?

Допустим, вы улучшили качество прогноза в пользовательском интерфейсе. Обучили новую модель, метрики качества улучшились. А что с выручкой? Вырастет ли она? Ответ даст только долгосрочный тест на несколько месяцев.

Вторая проблема — корреляция оффлайн ML-метрик и онлайн бизнес-метрик.

Например, ROC-AUC улучшился на несколько пунктов. Приведёт ли это к росту выручки? И на сколько процентов?

Бывали ли у вас случаи, когда оффлайн-метрики улучшились, а онлайн — нет? Или наоборот: на оффлайне изменения минимальны, а в онлайне бизнес-метрики резко выросли?

Ещё одна боль — это сбор базы проведённых тестов и датасетов к ним. Система меняется, старые данные теряют актуальность, и база перестаёт быть надёжной опорой.

Качество пайплайнов и оффлайн-среды

Работая над ML-продуктами, вы неизбежно сталкиваетесь с пайплайнами и симуляторами. И здесь тоже полно сложностей.

Система меняется, симуляторы "протухают". Качество датасетов в пайплайне требует регулярной валидации: что-то устарело, что-то изменилось, где-то появилась новая информация.

Постоянные доработки увеличивают время экспериментов. Когда подсчёты занимают полдня, а на дисках заканчивается место из-за артефактов, пора всё переписывать.

Выводы

Качественные метрики и надёжная оффлайн-среда — ключ к быстрому достижению аплифтов. Это позволяет ds-ам быстрее запускать эксперименты и тесты.

Но работа над этими аспектами — постоянная борьба. Здесь важно философское отношение и регулярное выделение ресурсов команды на системные задачи. Радуйтесь каждому стабилизированному компоненту, ведь это результат огромного труда.

Буду рад вашим реакциям 🔥 и историям вашей борьбы 🙃

#tech@big_ledovsky
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/big_ledovsky/283
Create:
Last Update:

Вечные проблемы DS-команд

Есть вещи, которые кажутся очевидными любому DS-у хотя бы с уровня мидла. Вы и ваша команда постоянно работаете над ними, стремитесь улучшать, но опыт показывает: гэпы и точки роста всё равно остаются. Это сложнее, чем кажется на первый взгляд. Я вижу это как на примере своей команды, так и в других. О чём я?

Метрики

Мы регулярно пересматриваем метрики. Они бывают разными:

- Бизнес-метрики
- Общие технические метрики
- Метрики ML-моделей

На первый взгляд, с бизнес-метриками всё должно быть просто. Но, как всегда, дьявол кроется в деталях.

Пример: метрика выручки.

- Вы уверены, что измеряете её правильно?
- Прокрашивается ли она в краткосрочных тестах?
- Если прокрашивается, сохранится ли эффект в долгосрочной перспективе?

Допустим, вы улучшили качество прогноза в пользовательском интерфейсе. Обучили новую модель, метрики качества улучшились. А что с выручкой? Вырастет ли она? Ответ даст только долгосрочный тест на несколько месяцев.

Вторая проблема — корреляция оффлайн ML-метрик и онлайн бизнес-метрик.

Например, ROC-AUC улучшился на несколько пунктов. Приведёт ли это к росту выручки? И на сколько процентов?

Бывали ли у вас случаи, когда оффлайн-метрики улучшились, а онлайн — нет? Или наоборот: на оффлайне изменения минимальны, а в онлайне бизнес-метрики резко выросли?

Ещё одна боль — это сбор базы проведённых тестов и датасетов к ним. Система меняется, старые данные теряют актуальность, и база перестаёт быть надёжной опорой.

Качество пайплайнов и оффлайн-среды

Работая над ML-продуктами, вы неизбежно сталкиваетесь с пайплайнами и симуляторами. И здесь тоже полно сложностей.

Система меняется, симуляторы "протухают". Качество датасетов в пайплайне требует регулярной валидации: что-то устарело, что-то изменилось, где-то появилась новая информация.

Постоянные доработки увеличивают время экспериментов. Когда подсчёты занимают полдня, а на дисках заканчивается место из-за артефактов, пора всё переписывать.

Выводы

Качественные метрики и надёжная оффлайн-среда — ключ к быстрому достижению аплифтов. Это позволяет ds-ам быстрее запускать эксперименты и тесты.

Но работа над этими аспектами — постоянная борьба. Здесь важно философское отношение и регулярное выделение ресурсов команды на системные задачи. Радуйтесь каждому стабилизированному компоненту, ведь это результат огромного труда.

Буду рад вашим реакциям 🔥 и историям вашей борьбы 🙃

#tech@big_ledovsky

BY Big Ledovsky | блог DS лида


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/big_ledovsky/283

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from hk


Telegram Big Ledovsky | блог DS лида
FROM American