#ml #работа

Борис опять

#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.

www.group-telegram.com/us/boris_again.com/1614

3.0K viewsedited Mar 7, 2023 at 11:02

group-telegram.com/boris_again/1614

Create: 2023-03-07
Last Update: 2025-02-11 08:49:16

BY Борис опять

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/boris_again/1614

Telegram | DID YOU KNOW?

#ml #работа