Telegram Group & Telegram Channel
#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.



group-telegram.com/boris_again/1614
Create:
Last Update:

#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.

BY Борис опять


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/boris_again/1614

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. 'Wild West' Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm.
from ca


Telegram Борис опять
FROM American