Мне недавно на почту пришло уведомление, что кто-то мне написал сообщение на Kaggle. Открываю - меня просят дать фидбек на ноутбук.
Смотрю ноутбук и прям с первых же строк появляется ощущение, что текст сгенерен chatgpt или чем-то подобным.
По приколу спросил ChatGPT: "What are the chances that this text is llm-generated?".
И от ответа стало как-то грустно. Оказывается, "Clear and Logical Flow", "Consistent Tone", "a strong grasp of domain knowledge", "Explanation Depth" - это всё признаки LLM.
Что же теперь получается: истинные признаки текста, написанного человеком - неструктурированный поток мысли без всякой глубины? 😅
Смотрю ноутбук и прям с первых же строк появляется ощущение, что текст сгенерен chatgpt или чем-то подобным.
По приколу спросил ChatGPT: "What are the chances that this text is llm-generated?".
И от ответа стало как-то грустно. Оказывается, "Clear and Logical Flow", "Consistent Tone", "a strong grasp of domain knowledge", "Explanation Depth" - это всё признаки LLM.
Что же теперь получается: истинные признаки текста, написанного человеком - неструктурированный поток мысли без всякой глубины? 😅
Недавно я писал, что популярность StackOverflow сильно упала.
В попытке оживить платформу, владельцы платформы добавили новую фичу - Matches.
Эта идея полностью меняет суть платформы: вместо публичного вопроса и offline ответов/обсуждения к нему, предлагается вживую отвечать людям в личке.
Это работает так: когда вы открываете сайт, может появиться pop-up "A new user needs help" в котором будет видна часть вопроса. Если соглашаетесь помочь - будет, похоже, общение в формате чата. В настоящий момент работают только pop-up, возможность общения в чате пока не имплементирована.
У этого поста админов карма уже -209. Часть людей недовольна тем, что матчи происходят полурандомно (совсем не совпадают с историей ответов экспертов); другие недовольны самой концепцией - это переводит платформу с публичного форума в личное общение; третьи тем, что платформу пытаются превратить в некий вариант онлайн техподдержки - раньше можно было отвечать в "спокойном режиме", а теперь создаётся "sense of urgency".
Насколько я понимаю, основная мотивация - "The team identified that many newer users feel that Stack Overflow can be slow". Но решать это сменой парадигмы платформы мне кажется странным.
#datascience
В попытке оживить платформу, владельцы платформы добавили новую фичу - Matches.
Эта идея полностью меняет суть платформы: вместо публичного вопроса и offline ответов/обсуждения к нему, предлагается вживую отвечать людям в личке.
Это работает так: когда вы открываете сайт, может появиться pop-up "A new user needs help" в котором будет видна часть вопроса. Если соглашаетесь помочь - будет, похоже, общение в формате чата. В настоящий момент работают только pop-up, возможность общения в чате пока не имплементирована.
У этого поста админов карма уже -209. Часть людей недовольна тем, что матчи происходят полурандомно (совсем не совпадают с историей ответов экспертов); другие недовольны самой концепцией - это переводит платформу с публичного форума в личное общение; третьи тем, что платформу пытаются превратить в некий вариант онлайн техподдержки - раньше можно было отвечать в "спокойном режиме", а теперь создаётся "sense of urgency".
Насколько я понимаю, основная мотивация - "The team identified that many newer users feel that Stack Overflow can be slow". Но решать это сменой парадигмы платформы мне кажется странным.
#datascience
Kaggle Hackathons
Каггле решил попробовать двинуться в новом направлении и выкатил новую фичу - Kaggle Hackathons. По факту это развитие идеи Analytics Competition.
Огранизатор хакатона может поставить любую задачу - сделать приложение, что-то сделать с помощью LLM, записать видео и так далее. Сабмиты делаются в виде Hackathon Writeup - пост на форуме со ссылкой на свой проект и подробным объяснением сделанного.
Медальки и очки за такое не дают, так что участие происходит только за призы от организаторов.
#datascience
Каггле решил попробовать двинуться в новом направлении и выкатил новую фичу - Kaggle Hackathons. По факту это развитие идеи Analytics Competition.
Огранизатор хакатона может поставить любую задачу - сделать приложение, что-то сделать с помощью LLM, записать видео и так далее. Сабмиты делаются в виде Hackathon Writeup - пост на форуме со ссылкой на свой проект и подробным объяснением сделанного.
Медальки и очки за такое не дают, так что участие происходит только за призы от организаторов.
#datascience
Kaggle
The Next Evolution of Competition: Introducing Kaggle Hackathons | Kaggle
SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents
Ребята из Nebius представили SWE-rebench — масштабируемый, автоматически обновляемый датасет из более чем 21к интерактивных Python-задач с GitHub для оценки LLM-агентов в задачах кодинга. Он решает две ключевые проблемы: нехватку реалистичных тренировочных данных и устаревание статических бенчмарков из-за контаминации. К этому прилагается contamination-free benchmark, показывающий, что результаты некоторых моделей на SWE-bench Verified могут быть переоценены.
Paper
Project
Dataset
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Ребята из Nebius представили SWE-rebench — масштабируемый, автоматически обновляемый датасет из более чем 21к интерактивных Python-задач с GitHub для оценки LLM-агентов в задачах кодинга. Он решает две ключевые проблемы: нехватку реалистичных тренировочных данных и устаревание статических бенчмарков из-за контаминации. К этому прилагается contamination-free benchmark, показывающий, что результаты некоторых моделей на SWE-bench Verified могут быть переоценены.
Paper
Project
Dataset
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.
Зачем участвовать?
– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.
🗂 Пример прошлогоднего исследования — devcrowd.ru/ds24, мой пост.
📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.
👉 Пройти опрос
Зачем участвовать?
– чтобы понять, какие задачи и инструменты сейчас в тренде,
– увидеть, как устроена работа у коллег в других продуктах,
– узнать, как растут зарплаты и роли в индустрии,
– получить данные, которые можно использовать для самодиагностики и карьерного планирования.
🗂 Пример прошлогоднего исследования — devcrowd.ru/ds24, мой пост.
📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.
👉 Пройти опрос
Исследование специалистов DS/ML/AI-направлений, 2024
Исследование рынка специалистов DS/ML/AI-направлений, 2024
DevCrowd вместе с Контуром провели исследование рынка специалистов DS/ML/AI-направлений, 2024
Cursor 1.0
Сегодня Cursor дошёл до версии 1.0!
https://www.cursor.com/en/changelog/1-0
Добавили бота для PR ревью, Background Agent для всех, агент для Jupyter Notebook, память и всякое остальное.
Обсуждение на ycombinator.
#datascience
Сегодня Cursor дошёл до версии 1.0!
https://www.cursor.com/en/changelog/1-0
Добавили бота для PR ревью, Background Agent для всех, агент для Jupyter Notebook, память и всякое остальное.
Обсуждение на ycombinator.
#datascience
Cursor
Changelog - Jun 4, 2025 | Cursor - The AI Code Editor | Cursor - The AI Code Editor
Cursor 1.0 brings BugBot for code review, a first look at memories, one-click MCP setup, Jupyter support, and general availability of Background Agent.
- мы хотим AGI, мы хотим, чтобы агенты начали думать
- агенты пытаются делать что-то неожиданное
- нет, не так!!!
- агенты пытаются делать что-то неожиданное
- нет, не так!!!
Monarch: a distributed execution engine for PyTorch
"Our overall goal is to deliver the high-quality user experience that people get from single-GPU PyTorch, but at cluster scale."
Официально от разработчиков PyTorch, выглядит интересно
https://github.com/pytorch-labs/monarch
#datascience
"Our overall goal is to deliver the high-quality user experience that people get from single-GPU PyTorch, but at cluster scale."
Официально от разработчиков PyTorch, выглядит интересно
https://github.com/pytorch-labs/monarch
#datascience
GitHub
GitHub - pytorch-labs/monarch: PyTorch Single Controller
PyTorch Single Controller. Contribute to pytorch-labs/monarch development by creating an account on GitHub.
Anki vs AnkiPro - трагикомедия
В течение последних нескольких недель я наблюдал большое бурление в узких кругах.
Есть программа Anki - один из самых известных инструментов для создания и ревью flashcards.
Она бесплатная для большинства платформ кроме Apple - для iPhone/iPad есть платная версия AnkiMobile. Заплатил один раз - и полный доступ навсегда.
Юзеры любят платформу, но иногда появляются критикующие. Основные причины недовольства - древний интерфейс и желательно почитать хотя бы базовые мануалы перед началом использования.
Неудивительно, что появляются альтернативы и желающие заработать.
И вот довольно давно появилось новое приложение для iPhone/iPad - Anki Pro. Оно не от официальных разработчиков Anki, но название похожее и дизайн практически скопирован. Поэтому многие люди покупают его и думают, что это официальное приложение. Основные его плюсы - более современный и простой интерфейс, а также упрощённый доступ к большому количеству колод карт на разные темы. Из минусов - нет нормальной возможности экспорта из него; подписка, которая через несколько месяцев по стоимости перекрывает единоразовый платёж за официальное приложение; хуже алгоритм scheduling карточек; меньше кастомизации и так далее.
Разработчики настоящего Anki пытались что-то делать (вот тут рассказ), но ничего не получилось.
На форумах и реддите люди годами советовали людям не трогать AnkiPro, но не помогало.
И вдруг недавно, у разработчиков Anki Pro упал сервер... и у всех юзеров пропал доступ к своим карточкам. В реальном anki это невозможно, ибо всё хранится не только на сервере, но и на девайсах юзеров локально. И сервер лежал несколько дней, так что люди были реально недовольны.
Но дальше пошло ещё хуже. Есть аддон, который позволяет перенести данные с Anki Pro на настоящий Anki. Недовольные юзеры стали его использовать, чтобы перейти на настоящий Anki. Ответ разрабоов Anki Pro был просто эпичен и безумен - теперь, при попытке использовать этот аддон, людей перекидывает на видео Rick-roll...
Юзеры совсем охренели от этого. И у разработчиков Anki переполнилась чаша терпения - они начали регистрировать trademark.
Разработчики AnkiPro шустро переименовались в Noji. Точнее они удалили старой приложение и скопировали его под новым названием. Юзеры теперь не уверены в том, что их данные будут перенесены туда. Кто может - переходит на Anki.
Вот такая история.
#languages
В течение последних нескольких недель я наблюдал большое бурление в узких кругах.
Есть программа Anki - один из самых известных инструментов для создания и ревью flashcards.
Она бесплатная для большинства платформ кроме Apple - для iPhone/iPad есть платная версия AnkiMobile. Заплатил один раз - и полный доступ навсегда.
Юзеры любят платформу, но иногда появляются критикующие. Основные причины недовольства - древний интерфейс и желательно почитать хотя бы базовые мануалы перед началом использования.
Неудивительно, что появляются альтернативы и желающие заработать.
И вот довольно давно появилось новое приложение для iPhone/iPad - Anki Pro. Оно не от официальных разработчиков Anki, но название похожее и дизайн практически скопирован. Поэтому многие люди покупают его и думают, что это официальное приложение. Основные его плюсы - более современный и простой интерфейс, а также упрощённый доступ к большому количеству колод карт на разные темы. Из минусов - нет нормальной возможности экспорта из него; подписка, которая через несколько месяцев по стоимости перекрывает единоразовый платёж за официальное приложение; хуже алгоритм scheduling карточек; меньше кастомизации и так далее.
Разработчики настоящего Anki пытались что-то делать (вот тут рассказ), но ничего не получилось.
На форумах и реддите люди годами советовали людям не трогать AnkiPro, но не помогало.
И вдруг недавно, у разработчиков Anki Pro упал сервер... и у всех юзеров пропал доступ к своим карточкам. В реальном anki это невозможно, ибо всё хранится не только на сервере, но и на девайсах юзеров локально. И сервер лежал несколько дней, так что люди были реально недовольны.
Но дальше пошло ещё хуже. Есть аддон, который позволяет перенести данные с Anki Pro на настоящий Anki. Недовольные юзеры стали его использовать, чтобы перейти на настоящий Anki. Ответ разрабоов Anki Pro был просто эпичен и безумен - теперь, при попытке использовать этот аддон, людей перекидывает на видео Rick-roll...
Юзеры совсем охренели от этого. И у разработчиков Anki переполнилась чаша терпения - они начали регистрировать trademark.
Разработчики AnkiPro шустро переименовались в Noji. Точнее они удалили старой приложение и скопировали его под новым названием. Юзеры теперь не уверены в том, что их данные будут перенесены туда. Кто может - переходит на Anki.
Вот такая история.
#languages
apps.ankiweb.net
Anki - powerful, intelligent flashcards
Anki - a program which makes remembering things easy.
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasonings
Авторы (разрабочики Qwen) показывают, что в RLVR для улучшения reasoning LLM ключевую роль играют high-entropy "forking tokens" — те, которые определяют ветвление хода рассуждений. Обновляя policy gradient только по этим 20% токенов, можно не только сохранить, но и улучшить качество reasoning (особенно на больших моделях), а обучение только на low-entropy токенах резко ухудшает результат.
Выглядит довольно интересно. Правда сработало только на Qwen-ах - авторы попробовали применить подход к LLAMA и заметных результатов не получили.
Paper
Project
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Авторы (разрабочики Qwen) показывают, что в RLVR для улучшения reasoning LLM ключевую роль играют high-entropy "forking tokens" — те, которые определяют ветвление хода рассуждений. Обновляя policy gradient только по этим 20% токенов, можно не только сохранить, но и улучшить качество reasoning (особенно на больших моделях), а обучение только на low-entropy токенах резко ухудшает результат.
Выглядит довольно интересно. Правда сработало только на Qwen-ах - авторы попробовали применить подход к LLAMA и заметных результатов не получили.
Paper
Project
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Forwarded from AI.Insaf
В Х пропушили библиотеку Memvid, у которой уже 5 тысяч ⭐️ на GitHub. Теперь вместо векторных баз данных предлагают хранить всё в видеофайлах, где каждый кадр — это QR-код. Правда, как справедливо заметили в комментариях, внутри всё равно крутится FAISS и те же векторные базы. Вот до чего доводит вайб-кодинг
HuggingFace deprecating TensorFlow and Flax support in transformers
https://x.com/LysandreJik/status/1933201171130593530
Прошла эпоха...
https://x.com/LysandreJik/status/1933201171130593530
Прошла эпоха...
Карьерные новости
Осенью 2024 меня сократили из Careem. Частично косты резали, частично политика, частично корпоративная культура. Впрочем, весь год компания сокращала людей для уменьшения костов. Через пару дней после этого, я съездил на DataFest Yerevan, где рассказал об одном из успешных рабочих проектов...
А спустя пару недель мне написал рекрутёр из Meta и предложил снова пообщаться (прошлый раз был в 2022). Я собеседовался на Staff/E6, но прошёл на Senior/E5.
На прошлой неделе переехал в Лондон и в этот понедельник вышел на работу. Пока 2-3 недели будут обучения, дальше предстоит работать в команде монетизации и делать look-a-like на contrastive learning.
Пока привыкаю к жизни в новом городе, позже расскажу как проходили собеседования, как к ним готовился, как шёл переезд.
#datascience #life
Осенью 2024 меня сократили из Careem. Частично косты резали, частично политика, частично корпоративная культура. Впрочем, весь год компания сокращала людей для уменьшения костов. Через пару дней после этого, я съездил на DataFest Yerevan, где рассказал об одном из успешных рабочих проектов...
А спустя пару недель мне написал рекрутёр из Meta и предложил снова пообщаться (прошлый раз был в 2022). Я собеседовался на Staff/E6, но прошёл на Senior/E5.
На прошлой неделе переехал в Лондон и в этот понедельник вышел на работу. Пока 2-3 недели будут обучения, дальше предстоит работать в команде монетизации и делать look-a-like на contrastive learning.
Пока привыкаю к жизни в новом городе, позже расскажу как проходили собеседования, как к ним готовился, как шёл переезд.
#datascience #life
Dogfooding - Meta Quest Pro
Один из плюсов работы в такой компании - можно поучаствовать в dogfooding продуктов.
Кто не знает, "dogfooding" практика внутреннего тестирования, когда сотрудники компании могут получить ранний доступ к невыпущенным продуктам для тестирования.
Например, новичкам выдают headset Meta Quest Pro (при желании). Его можно использовать как угодно. Можно выполнять специальные "квесты" или находить баги. Чем больше полезной активности делаешь, тем больше плюшек получаешь - например, доступ к ещё более ранним версиям продуктов.
Я раньше ни разу не пробовал использовать headsets, так что это интересный опыт.
Это весьма необычно - плавающие перед тобой менюшки, управление как руками, так и controllers, трекинг движений и так далее. Большинство приложение, как это ожидаемо, либо игры, либо разные способы коммуникации. Неудивительно - писать текст на таких девайсах не особо удобно.
Глаза могут уставать, особенно если зрение плохое (как у меня); если переключаться между headset и телефоном (чтобы смотреть в приложение), может быть тяжко, может голова заболеть - ибо сильно меняется перспектива; в некоторых приложениях графика так себе.
Но в целом это весьма интересный опыт.
#life
Один из плюсов работы в такой компании - можно поучаствовать в dogfooding продуктов.
Кто не знает, "dogfooding" практика внутреннего тестирования, когда сотрудники компании могут получить ранний доступ к невыпущенным продуктам для тестирования.
Например, новичкам выдают headset Meta Quest Pro (при желании). Его можно использовать как угодно. Можно выполнять специальные "квесты" или находить баги. Чем больше полезной активности делаешь, тем больше плюшек получаешь - например, доступ к ещё более ранним версиям продуктов.
Я раньше ни разу не пробовал использовать headsets, так что это интересный опыт.
Это весьма необычно - плавающие перед тобой менюшки, управление как руками, так и controllers, трекинг движений и так далее. Большинство приложение, как это ожидаемо, либо игры, либо разные способы коммуникации. Неудивительно - писать текст на таких девайсах не особо удобно.
Глаза могут уставать, особенно если зрение плохое (как у меня); если переключаться между headset и телефоном (чтобы смотреть в приложение), может быть тяжко, может голова заболеть - ибо сильно меняется перспектива; в некоторых приложениях графика так себе.
Но в целом это весьма интересный опыт.
#life
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning
Yann LeCun представляет: V-JEPA 2 — self-supervised модель, обученная на более чем 1 миллионе часов интернет-видео и небольшом объёме данных от роботов. Модель показывает высокие результаты в motion understanding и action anticipation, а после alignment с large language model достигает SOTA в video question answering. Post-training V-JEPA 2-AC на 62 часах видео с роботами позволяет выполнять zero-shot планирование для задач pick-and-place без сбора новых данных и task-specific обучения.
Выглядит впечатляюще, вполне себе world model.
Paper
Project
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Yann LeCun представляет: V-JEPA 2 — self-supervised модель, обученная на более чем 1 миллионе часов интернет-видео и небольшом объёме данных от роботов. Модель показывает высокие результаты в motion understanding и action anticipation, а после alignment с large language model достигает SOTA в video question answering. Post-training V-JEPA 2-AC на 62 часах видео с роботами позволяет выполнять zero-shot планирование для задач pick-and-place без сбора новых данных и task-specific обучения.
Выглядит впечатляюще, вполне себе world model.
Paper
Project
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
У Anthropic недавно вышел новый длинный блогпост, на этот раз "How we built our multi-agent research system". И я хочу поделиться отличным разбором этого поста от https://www.group-telegram.com/max_dot_sh.
Это авторский блог, ведёт его Максим Шапошников. Он работал последние 3.5 года в FAANG в Лондоне, теперь пошёл заниматься AI кодогенерацией в молодой стартап.
Канал годный, там много про карьеру на рисерч позициях в BigTech и стартапах, интересных советов и отзывов о собеседованиях в интересные места от разных людей.
#datascience
Это авторский блог, ведёт его Максим Шапошников. Он работал последние 3.5 года в FAANG в Лондоне, теперь пошёл заниматься AI кодогенерацией в молодой стартап.
Канал годный, там много про карьеру на рисерч позициях в BigTech и стартапах, интересных советов и отзывов о собеседованиях в интересные места от разных людей.
#datascience
Anthropic
How we built our multi-agent research system
On the the engineering challenges and lessons learned from building Claude's Research system