Telegram Group & Telegram Channel
#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.



group-telegram.com/boris_again/1614
Create:
Last Update:

#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.

BY Борис опять


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/boris_again/1614

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. He adds: "Telegram has become my primary news source." Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from tr


Telegram Борис опять
FROM American