Telegram Group & Telegram Channel
#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.



group-telegram.com/boris_again/1614
Create:
Last Update:

#ml #работа
# Два способа делать DS/ML

Я в Planet Farms уже месяца четыре делаю что называется скучный бекенд (если более модно MLOps). Настраиваем хранение изображений. БД и API с информацией о них. Фронт для того, чтобы изображениями могли позвользоваться еще до внедрения всякого ML, и чтобы заодно мы получали разметку. Поднимаем Prefect и делаем батч процессы, чтобы таскать данные и все склеивать. В процессе вскрываются разные проблемы во внешних системах. Например, каунтер оборотов колеса робота был неоткалиброван. Сколько я нервов потратил, пытаясь понять, почему проекция фоток на карту фабрики помещала их не туда. Оказалось, что одна 1 единица каунтера робота равна 1039 милиметрам. Так же оказывается, что нужные данные от других сервисов, а там все плохо. Значит надо править там и работать с другими командами, чтобы они потом не сломали. Появляются данные, которые нельзя потерять, а это тянет за собой бекапы, алерты и прочую инфраструктуру.

Короче, для ML-щика работа не секси вообще. Если бы я сейчас ушел с этой работы и стал проходить собеседования, то про ML было бы нечего рассказывать. Зато после запуска моя работа уже будет экономить людям по три часа в день и открывать возможности для масштабирования фабрик. Любой DS сможет просто выгрузить табличку с данными и обучать полезную модель. Когда сделаем инфру для инференса он еще и сможет модель выкатить имея только базовые знания по инженерии. В долгосроке это верный путь, ведущий к возникновению ML компетенций и культуры данных в компании.

Но можно было сделать все по-другому! Отмотаем в начало. Я прихожу в компанию, где какой-то робот собирает какие-то фотографии растений, которые можно сопоставить только с возрастом растений. Если бы я был каким-нибудь PhD без инженерного бекграунда, то мог бы поступить так. Во-первых, собрал бы в датасет то, что есть. Обучил бы модель предсказывать возраст растений. Провел бы много экспериментов, научился правильно бенчмаркать, может быть даже сделал спецаильню архитектуру. Показал бы, что эту модель можно использовать, чтобы обнаруживать нестыковки. Если растение было посажено десять дней назад, а модель говорит, что ему как-будто пять дней, значит оно плохо растет. Все были бы в восторге от красивых графиков.

Далее я бы запросил большой бюджет на разметку. Большой потому что разметка специфическая и нужны эксперты. Мы стали бы размечать изображения на предмет наличия проблем с растениями. Все это выглядело бы очень важно: тратятся большие деньги, привлекаются эксперты, налаживаются процессы в команде инхаус разметки. Наверное даже какого-нибудь лида разметки наняли бы. Я бы обучал модели и показывал, как качество растет. Можно было бы заниматься этим года три. Компания делала бы много промо материалов о том, как мы используем cutting edge machine learning and artificial intelligence for Industry 4.0.

Потом я бы ушел искать новую работу. Я бы легко пошел на повышение, потому что я показал бы отличный опыт. Сделал разметку, сделал модель, качество росло, менеджмент был доволен. Тоже самое рассказывал бы и мой джун.

Тем временем компания обнаружила бы, что все сделанное мной не приносит абсолютно никакой пользы. Потому что есть большая разница между “эту модель можно использовать” и “эту модель используют”. Модель надо внедрять, мониторить, дообучать, версионировать, презентовать ее результаты, адаптировать существующие процессы и прочее прочее. А об этом даже не думали. Скорее всего она вообще неадекватна, потому что задача бралась с потолка, а значит и разметка тоже. Даже если модель полезна выигрыш от нее никогда не окупит затраты на три года работы ML команды и разметку.

В итоге в лучшем случае компания наняла бы новую команду делать то, что мы делаем сейчас. В худшем закрыла бы проект. В любом случае никто бы даже не подумал, что я сделал что-то неправильно: Борис хорошо делал ML, но компания позвала его слишком рано, до создания аналитической культуры. Я получил бы отличные рекомендации и пошел делать бесполезный ML в следующей компании.

BY Борис опять


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/boris_again/1614

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. In 2018, Russia banned Telegram although it reversed the prohibition two years later. Anastasia Vlasova/Getty Images Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments.
from nl


Telegram Борис опять
FROM American