Все три недели ребята доделывали свой проект, используя то, что они поняли во время работы над общим проектом по прогнозированию ETA. Один из моих любимых проектов на курсе - онлайн dnd-игра, которую придумал Костя Николаенко. На скриншотах - ml system design canvas, который помогает кратко ответить на главные вопросы (какую бизнес-задачу мы решаем? как мы ее решаем? как мы деплоим и обеспечиваем работу нашего решения?), и архитектура конечной системы. Косте респект, а нам с Мишей предстоит доработать этот канвас, методологию и сам курс, чтобы сделать его полезным не только для студентов, но и для тех, кто уже работает в DS/ML.
Очень понравилось и решил перепостить. Как говорится, сос мыслом)
Forwarded from Экономика долгого времени
Приведу здесь отрывок из колонки Пола Кругмана. Нравится мне этот отрывок тем, что Кругман в нем честно пишет о подростковых мотивациях, так часто определяющих жизненный путь. Позднее, уже будучи взрослыми людьми, мы задним числом довешиваем на уже принятые решения всякие "серьезные" логические мотивационные bells & whistles. Но это уже потом, когда выбор давно сделан — и по совершенно иным причинам.
"Есть определенные романы, которые могут повлиять на жизнь мальчика подросткового возраста. Для одних это "Атлант расправил плечи" Айн Рэнд, для других — "Властелин колец" Толкиена. Как гласит широко цитируемый интернет-мем: нереалистичный фэнтезийный мир одной из этих книг может исказить характер молодого человека навсегда; другая книга об орках. Но для меня, конечно, это было ни то, ни другое. Моя книга — та, которая остается со мной на протяжении четырех с половиной десятилетий, — это трилогия Айзека Азимова "Основание", написанная Азимовым когда он сам едва вышел из подросткового возраста. Я рос не с желанием быть индивидуалистом с квадратной челюстью или участвовать в героическом квесте; я рос с желанием быть Хари Селдоном, использовать свое понимание математики человеческого поведения [термин романа Азимова] для того, чтобы спасти цивилизацию. Хорошо-хорошо, экономика — довольно плохой субститут; я не ожидаю, что через столетие или два буду выступать в Хранилище времени [как выступал Селдон в книге]. Но я пытался."
Полный текст в Гардиан, по-английски.
"Есть определенные романы, которые могут повлиять на жизнь мальчика подросткового возраста. Для одних это "Атлант расправил плечи" Айн Рэнд, для других — "Властелин колец" Толкиена. Как гласит широко цитируемый интернет-мем: нереалистичный фэнтезийный мир одной из этих книг может исказить характер молодого человека навсегда; другая книга об орках. Но для меня, конечно, это было ни то, ни другое. Моя книга — та, которая остается со мной на протяжении четырех с половиной десятилетий, — это трилогия Айзека Азимова "Основание", написанная Азимовым когда он сам едва вышел из подросткового возраста. Я рос не с желанием быть индивидуалистом с квадратной челюстью или участвовать в героическом квесте; я рос с желанием быть Хари Селдоном, использовать свое понимание математики человеческого поведения [термин романа Азимова] для того, чтобы спасти цивилизацию. Хорошо-хорошо, экономика — довольно плохой субститут; я не ожидаю, что через столетие или два буду выступать в Хранилище времени [как выступал Селдон в книге]. Но я пытался."
Полный текст в Гардиан, по-английски.
Жизнь и датка
Собрались с Мишей Рожковым и выложили наши материалы по ML System Design курсу в Harbour.Space в открытый доступ на https://github.com/mlrepa/ml-system-design. Презентации были прекрасны в классе, когда можно задать контекст словами, поштормить над чем-то…
В продолжении поста про курс по ML System Design: так получилось, что в последнюю неделю я дважды немного расказывал про этот канвас в ЦУ - очень здорово, когда получается такой материал, который получается легко переиспользовать.
А на днях Миша написал классное саммари про наш подход - получилось очень ёмко и интересно. Отдельно рекомендую посмотреть тем, кто слушал меня в ЦУ и хотел бы разобраться подробней.
https://medium.com/@mnrozhkov/ml-system-design-canvas-a-practical-communication-tool-for-business-and-ml-team-2c6f583df10a
А на днях Миша написал классное саммари про наш подход - получилось очень ёмко и интересно. Отдельно рекомендую посмотреть тем, кто слушал меня в ЦУ и хотел бы разобраться подробней.
https://medium.com/@mnrozhkov/ml-system-design-canvas-a-practical-communication-tool-for-business-and-ml-team-2c6f583df10a
Medium
ML System Design Canvas: A Practical Communication Tool for Business and ML Team
Introduction
Мы начинаем готовиться к межнару по AI в 2025 году сильно заранее (надеюсь это не скажется на результатах! 🙃) и вместо ребят из Летово, которые взяли в этом году первое место (кстати, на сайте олимпиады наконец появились результаты, где видно как далеко от всех они оторвались), от России будет выступать сборная, в которую можно отобраться всем школьникам. Один из способов попасть на отбор на межнар - попасть на заключительный этап Всероса по ИИ. Регистрация открыта еще неделю, так что если вы хотели поучаствовать - регистрируйтесь! Буду рад увидеть вас на подготовке к межнару 💖
Please open Telegram to view this post
VIEW IN TELEGRAM
International Olympiad in Artificial Intelligence
Results - International Olympiad in Artificial Intelligence
Results Bulgaria 2024 In the first edition of the International Olympiad in AI, the jury awarded 21 medals for the Scientific Round (4 gold, 7 silver, and 10 bronze) out of 41 teams, as well as 21 awards for the Practical Round (4 gold, 7 silver, and 10 bronze).…
Два месяца с последнего поста вышли достаточно насыщенными. Мы готовим к запуску в ЦУ курсы по Production ML (хотел назвать "Инструменты ML-инженера", но короткое название победило) и ML System Design (учимся решать бизнес задачи с помощью машинки). Продолжается наш студенческий кружок по Kaggle по четвергам и воскресеньям. Придумываются автоматические грейдеры для ML курсов (юнит-тесты и проверка текстовых заданий ллмками). Ну и в целом в универе неожиданно для меня оказалось очень много всего 🐤
Ну и конечно продолжаем работать над курсом для школьников, который должен подготовить их к межнару. Мы попытались уместить весь ML который может встретится на олимпиаде в три месяца, но не смогли, пришлось добавить еще неделю:)
В курсе будет три блока: классика, CV и NLP. Темы - от поиска ликов в соревнованиях до трансформеров и мультимодальности. Получается как будто достаточно жестко, но должно покрыть все темы, с которыми можно будет столкнуться в следующем году🐼
Часть команды курса уже готовила команду к межнару в прошлом году и часть преподавателей будет новая:) В команде Kaggle Grandmasterы, рисерчеры из российского бигтеха и топовых университетов зарубежом.
На курс приглашены финалисты Всероса по ИИ и нескольких других олимпиад, в том числе AIJ (я все еще жду финальный список, про который смогу всем рассказать). После курса мы проведем отборочный этап, чтобы определить команду, которая поедет на межнар. Ну и затем - еще более сложные тренировки и решение домашней части олимпиады💖
Мне нравится то, что у нас получается, и особенно здорово, что этот курс будет полезен не только для команды на межнар, но и для всех остальных школьников, которые на него придут. Надеюсь всем участникам тоже понравится:) Поближе к запуску буду делиться новыми деталями.
Ну и конечно продолжаем работать над курсом для школьников, который должен подготовить их к межнару. Мы попытались уместить весь ML который может встретится на олимпиаде в три месяца, но не смогли, пришлось добавить еще неделю:)
В курсе будет три блока: классика, CV и NLP. Темы - от поиска ликов в соревнованиях до трансформеров и мультимодальности. Получается как будто достаточно жестко, но должно покрыть все темы, с которыми можно будет столкнуться в следующем году
Часть команды курса уже готовила команду к межнару в прошлом году и часть преподавателей будет новая:) В команде Kaggle Grandmasterы, рисерчеры из российского бигтеха и топовых университетов зарубежом.
На курс приглашены финалисты Всероса по ИИ и нескольких других олимпиад, в том числе AIJ (я все еще жду финальный список, про который смогу всем рассказать). После курса мы проведем отборочный этап, чтобы определить команду, которая поедет на межнар. Ну и затем - еще более сложные тренировки и решение домашней части олимпиады
Мне нравится то, что у нас получается, и особенно здорово, что этот курс будет полезен не только для команды на межнар, но и для всех остальных школьников, которые на него придут. Надеюсь всем участникам тоже понравится:) Поближе к запуску буду делиться новыми деталями.
Please open Telegram to view this post
VIEW IN TELEGRAM
У Жени в канале появилась любопытная возможность придумать задачу на межнар по AI. И судя по задачам прошлого года, возможность вполне реальная)
https://www.group-telegram.com/tsymbalove/131
https://www.group-telegram.com/tsymbalove/131
Telegram
tsymba❤️
Привет, друзья!
Мы открыли набор задач для IOAI 2025 (международной олимпиады школьников по искусственному интеллекту, где в прошлом году победила российская команда).
У вас есть уникальный шанс привнести что-то невероятное и заставить лучшие умы человечества…
Мы открыли набор задач для IOAI 2025 (международной олимпиады школьников по искусственному интеллекту, где в прошлом году победила российская команда).
У вас есть уникальный шанс привнести что-то невероятное и заставить лучшие умы человечества…
Воспользуюсь моментом и сообщу, что такие же задачи нам предстоить придумать на отборочный этап, на котором будет решаться, какая команда поедет на межнар от России. Так что если вашу задачу на межнар не примут, приносите её мне 😄
Внезапно для себя ищу человека, который будет перерисовывать мемы для презентаций в ЦУ
буду рад познакомиться с тем, кто достаточно крейзи чтобы это попробовать
буду рад познакомиться с тем, кто достаточно крейзи чтобы это попробовать
Жизнь и датка
Please open Telegram to view this post
VIEW IN TELEGRAM
Учитель математики в школе говорил нам, что геометрия - это умение решать задачи по неправильным чертежам.
Смотрю на горящие дедлайны по курсам и утешаю себя тем, что преподавание - это умение учить людей по недоделанным материалам.
Смотрю на горящие дедлайны по курсам и утешаю себя тем, что преподавание - это умение учить людей по недоделанным материалам.
Для курса подготовки школьников к межнару решил попробовать собрать два соревнования не сам, а используя o1-pro. В обоих соревнованиях я хотел получить скрипт, который сгенерирует мне train, test, sample_submission, solution - все, что нужно, чтобы завести кегл соревнование. Процесс получился достаточно любопытным, поэтому я решил поделиться своими наблюдениями.
Первым я собирал соревнование на семинар по ML метрикам и константным решениям. Есть класс задач, где можно получить хорошее качество и без обучения моделей - обычно это относится к периодическим паттернам (прогноз погоды на пару месяцев вперед) или к задачам с огромным количеством категорий (прогноз CTR в google ads). На практике это редко заменяет ML модель, но может служить неплохой фичей.
У меня было хорошее понимание что я хочу получить, я постарался максимально ясно и коротко его объяснить, закинул в чатгпт и попросил его задать мне уточняющие вопросы (это оказалось хорошей идеей и сильно помогло🐥 ). В итоге какой-то скрипт, который мне понравился, появился буквально в течении получаса, но вот потом пришлось очень много итерироваться, смотря на результат или читая код. Тут хорошей идеей было попросить напечатать качество моделей и порисовать графики, чтобы я мог проверить наличие закономерностей, которые хотел получить.
С некоторыми штуками у нас так и не получилось справиться - после 3-4 попыток объяснить ему, чего я хочу, приходилось лезть в код исправлять самому. Потом этот код закидывался обратно и с ним вполне получалось работать дальше. Тут пожалуй приведу два примера. Первый: когда я хотел получить некоторую закономерность, формулы которой я сам явно не понимал, додумать мою мысль у чатгпт не получалось. Второй: в какой-то момент был сгенерирован очень долгий и странный расчет статистического бейзлайна, который никак не получалось исправить с помощью наводящих вопросов, и в итоге я за несколько минут переписал его через один групбай.🐼
Вывод тут хочется сделать такой, что у o1-pro хорошо получается выполнять задачи, которые хорошо и однозначно формулируются. Как будто чатгпт не хватало "умения" распознать возникающую проблему и задать правильный вопрос в нужное время: мне кажется, если бы это был не чатгпт, а какой-нибудь другой кеглер или млщик, то он бы сказал, что ничего не понял и нужно дообъяснить. (Думаю, мне тут самому стоило напомнить чатгпт, что она может задавать мне вопросы, если есть существенная неопределенность задачи).
Еще несколько раз встречалась ситуация, когда у чатгпт как будто не хватало "насмотренности". Например, когда я попросил его посчитать качество статистического прогноза, то он решил просто отфильтровать строчки, где прогноз был NaN😅 Еще был такой забавный: когда я сказал, что качество бейзлайна слишком хорошее и попросил его ухудшить, чатгпт просто удалил часть колонок из датафрейма базовой модели 👌 конечно я имел в виду, что нужно сделать зависимость между данными и таргетом более случайной, данные ведь синтетические. Тут видно, что пытаясь удовлетворить запросу формально, был упущен важный контекст (это будет соревнование и участники в качестве бейзлайна ну уж точно догадаются отдать в катбуст все фичи).
Первым я собирал соревнование на семинар по ML метрикам и константным решениям. Есть класс задач, где можно получить хорошее качество и без обучения моделей - обычно это относится к периодическим паттернам (прогноз погоды на пару месяцев вперед) или к задачам с огромным количеством категорий (прогноз CTR в google ads). На практике это редко заменяет ML модель, но может служить неплохой фичей.
У меня было хорошее понимание что я хочу получить, я постарался максимально ясно и коротко его объяснить, закинул в чатгпт и попросил его задать мне уточняющие вопросы (это оказалось хорошей идеей и сильно помогло
С некоторыми штуками у нас так и не получилось справиться - после 3-4 попыток объяснить ему, чего я хочу, приходилось лезть в код исправлять самому. Потом этот код закидывался обратно и с ним вполне получалось работать дальше. Тут пожалуй приведу два примера. Первый: когда я хотел получить некоторую закономерность, формулы которой я сам явно не понимал, додумать мою мысль у чатгпт не получалось. Второй: в какой-то момент был сгенерирован очень долгий и странный расчет статистического бейзлайна, который никак не получалось исправить с помощью наводящих вопросов, и в итоге я за несколько минут переписал его через один групбай.
Вывод тут хочется сделать такой, что у o1-pro хорошо получается выполнять задачи, которые хорошо и однозначно формулируются. Как будто чатгпт не хватало "умения" распознать возникающую проблему и задать правильный вопрос в нужное время: мне кажется, если бы это был не чатгпт, а какой-нибудь другой кеглер или млщик, то он бы сказал, что ничего не понял и нужно дообъяснить. (Думаю, мне тут самому стоило напомнить чатгпт, что она может задавать мне вопросы, если есть существенная неопределенность задачи).
Еще несколько раз встречалась ситуация, когда у чатгпт как будто не хватало "насмотренности". Например, когда я попросил его посчитать качество статистического прогноза, то он решил просто отфильтровать строчки, где прогноз был NaN
Please open Telegram to view this post
VIEW IN TELEGRAM
Приятно удивила меня работа с ошибками - когда у меня вываливалась какая-то ошибка при выполнении кода и я скидывал лог, о1-pro почти всегда фиксил ее правильно (но зато когда ее не получалось пофиксить, то не получалось на протяжении 3-4 итераций и потом я уже забивал и шел фиксить все руками 🐤 ). Здесь думаю, что могла бы помочь среда исполнения, в которой агент мог бы сам итерироваться, но для o1-pro такая пока недоступна. Некоторые ошибки были достаточно хитрыми, и тут бы явно понадобился какой-то дебаг, а не просто "выполнить и посмотреть на конечный результат".
Еще один важный момент, что размышления о1-pro у меня длились достаточно долго (от 1 до 6 минут). С одной стороны, удобно: дал задачу и можешь пойти чай налить или сделать что-то по дому; с другой стороны, долго: когда я устал добиваться текстом каких-то ньюансов решения, стало проще погрузиться в код и самому пофиксить. В конце еще заметил и то, что время от времени чатгпт стал терять некоторые кусочки кода и допускать новые ошибки в старом коде при выполнении новых инструкций (правда, скрипт, которым он оперировал в этот момент уже был длиной в 300 строк).
Опыт с созданием первого соревнования показался мне достаточно любопытным (со вторым получилось тоже интересно, но я устал печатать а вы читать, так что как-нибудь в следующий раз). Кажется в сумме я потратил около 5-6 часов чистого времени, при этом это скорее хорошо: поскольку я не создаю kaggle соревнования каждый месяц, то без чатгпт у меня ушло бы раза в два больше времени. Но отдать разработку соревнования "на аутсорс" чатгпт тоже не вышло: в итоге мне пришлось разобраться во всем коде и прилично его поисправлять😭 . При этом сам "скелет" кода был написан прекрасно и сэкономил мне много времени. Получилась такая работа в паре, где один отвечал за видение конечного результата и доработку сложных кусков, а второй за набросок бойлерплейта и часть доработок по входящим запросам.
Теперь мне интересно, получился ли у кого-нибудь из школьников решить соревнование с чатгпт и что окажется быстрее сделать это самостоятельно:) Думаю, как и в создании соревнования здесь есть какой-то баланс, где чатгпт поможет тебе больше успеть и глубже разобраться, а не решить соревнование целиком. Ну это пока не вышла о3 или что там дальше) А так к следующему году эти соревнования может и придется переделывать)
Еще один важный момент, что размышления о1-pro у меня длились достаточно долго (от 1 до 6 минут). С одной стороны, удобно: дал задачу и можешь пойти чай налить или сделать что-то по дому; с другой стороны, долго: когда я устал добиваться текстом каких-то ньюансов решения, стало проще погрузиться в код и самому пофиксить. В конце еще заметил и то, что время от времени чатгпт стал терять некоторые кусочки кода и допускать новые ошибки в старом коде при выполнении новых инструкций (правда, скрипт, которым он оперировал в этот момент уже был длиной в 300 строк).
Опыт с созданием первого соревнования показался мне достаточно любопытным (со вторым получилось тоже интересно, но я устал печатать а вы читать, так что как-нибудь в следующий раз). Кажется в сумме я потратил около 5-6 часов чистого времени, при этом это скорее хорошо: поскольку я не создаю kaggle соревнования каждый месяц, то без чатгпт у меня ушло бы раза в два больше времени. Но отдать разработку соревнования "на аутсорс" чатгпт тоже не вышло: в итоге мне пришлось разобраться во всем коде и прилично его поисправлять
Теперь мне интересно, получился ли у кого-нибудь из школьников решить соревнование с чатгпт и что окажется быстрее сделать это самостоятельно:) Думаю, как и в создании соревнования здесь есть какой-то баланс, где чатгпт поможет тебе больше успеть и глубже разобраться, а не решить соревнование целиком. Ну это пока не вышла о3 или что там дальше) А так к следующему году эти соревнования может и придется переделывать)
Please open Telegram to view this post
VIEW IN TELEGRAM
В прошлом (уже позапрошлом) году Лёша предложил мне поддержать грантами ребят, которые хотят учиться DS/ML в Казахстане. В прошлом году у меня самого было турбулентное время - я как раз уходил из Iterative, и решил выделить один грант. В итоге у нас что-то не срослось: человек, которому выделили грант, отвалился =/
В этом году я поделился идеей со своими знакомыми, и нам показалось это классной возможностью. В итоге мы собрали аж на 40 грантов. Хотим помочь независимо от возраста умным & из глубинки или меняющим профессию/область деятельности. Из Казахстана, России, и других стран. В том числе иммигрировавшим россиянам. Как бы включается в меняющих профессию, но как будто и особняком стоят.
А я лично хочу этим поддержать ребят, которые хотят научиться машинке, но испытывают материальные сложности, и особенно поддержать ребят из маленьких городов. Мне когда-то очень повезло получить свой шанс, и я буду рад, если смогу кому-то с этим помочь. https://www.group-telegram.com/alexdral/806
В этом году я поделился идеей со своими знакомыми, и нам показалось это классной возможностью. В итоге мы собрали аж на 40 грантов. Хотим помочь независимо от возраста умным & из глубинки или меняющим профессию/область деятельности. Из Казахстана, России, и других стран. В том числе иммигрировавшим россиянам. Как бы включается в меняющих профессию, но как будто и особняком стоят.
А я лично хочу этим поддержать ребят, которые хотят научиться машинке, но испытывают материальные сложности, и особенно поддержать ребят из маленьких городов. Мне когда-то очень повезло получить свой шанс, и я буду рад, если смогу кому-то с этим помочь. https://www.group-telegram.com/alexdral/806
Telegram
Заметки математика-программиста, Алексей Драль
💝 Именные гранты на обучение, Александр Гущин
Сегодня произошло историческое событие. Мы с Александром подписали договор о грантовой поддержке в размере 40 грантов 🔥😱 на курс Big Data / Machine Learning Engineer.
Это нереально круто, когда в окружении есть…
Сегодня произошло историческое событие. Мы с Александром подписали договор о грантовой поддержке в размере 40 грантов 🔥😱 на курс Big Data / Machine Learning Engineer.
Это нереально круто, когда в окружении есть…