Telegram Group & Telegram Channel
#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.



group-telegram.com/boris_again/1614
Create:
Last Update:

#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.

BY Борис опять


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/boris_again/1614

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from ar


Telegram Борис опять
FROM American