Telegram Group Search
​​Claude 4

https://www.anthropic.com/news/claude-4

Среди прочего, Extended thinking with tool use - например, может думать при поиске в интернете
DRW - Crypto Market Prediction

Не знаю радоваться или плакать. На каггле запустили сореву по предсказанию цены крипты. Соревнование не официальное, а community, но приз - 25k$ в сумме.

Более того, орги сделали promotion video для рекламы соревнования.

#datascience
​​HuggingFace в разделе статей теперь суммаризирует статьи для совсем ленивых.
Лень прочитать статью? Читайте abstract. Лень читать abstract? Теперь есть "уникальная" возможность прочитать одно предложение самым главным.

Печально
​​Минутка ностальгии

Я открыл каггл впервые за долгое время и увидел, что один из моих ноутбуков получил золото неделю назад. Открыл его - а это ноутбук по соревнованию от Авито которое было 7 лет назад.
А казалось, что всё это было недавно...
​​Visual Planning: Let's Think Only with Images

Авторы предлагают новый подход — Visual Planning, где планирование выполняется не через текст, а с помощью последовательностей изображений, что особенно эффективно для задач с пространственной и геометрической логикой. И разработали VPRL — reinforcement learning фреймворк, основанный на GRPO.

Результаты выглядят неплохо. Интересно, насколько хорошо это сработает для соревнования ARC?

Paper
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Мне недавно на почту пришло уведомление, что кто-то мне написал сообщение на Kaggle. Открываю - меня просят дать фидбек на ноутбук.
Смотрю ноутбук и прям с первых же строк появляется ощущение, что текст сгенерен chatgpt или чем-то подобным.

По приколу спросил ChatGPT: "What are the chances that this text is llm-generated?".
И от ответа стало как-то грустно. Оказывается, "Clear and Logical Flow", "Consistent Tone", "a strong grasp of domain knowledge", "Explanation Depth" - это всё признаки LLM.
Что же теперь получается: истинные признаки текста, написанного человеком - неструктурированный поток мысли без всякой глубины? 😅
​​Недавно я писал, что популярность StackOverflow сильно упала.

В попытке оживить платформу, владельцы платформы добавили новую фичу - Matches.

Эта идея полностью меняет суть платформы: вместо публичного вопроса и offline ответов/обсуждения к нему, предлагается вживую отвечать людям в личке.

Это работает так: когда вы открываете сайт, может появиться pop-up "A new user needs help" в котором будет видна часть вопроса. Если соглашаетесь помочь - будет, похоже, общение в формате чата. В настоящий момент работают только pop-up, возможность общения в чате пока не имплементирована.

У этого поста админов карма уже -209. Часть людей недовольна тем, что матчи происходят полурандомно (совсем не совпадают с историей ответов экспертов); другие недовольны самой концепцией - это переводит платформу с публичного форума в личное общение; третьи тем, что платформу пытаются превратить в некий вариант онлайн техподдержки - раньше можно было отвечать в "спокойном режиме", а теперь создаётся "sense of urgency".

Насколько я понимаю, основная мотивация - "The team identified that many newer users feel that Stack Overflow can be slow". Но решать это сменой парадигмы платформы мне кажется странным.

#datascience
Kaggle Hackathons

Каггле решил попробовать двинуться в новом направлении и выкатил новую фичу - Kaggle Hackathons. По факту это развитие идеи Analytics Competition.

Огранизатор хакатона может поставить любую задачу - сделать приложение, что-то сделать с помощью LLM, записать видео и так далее. Сабмиты делаются в виде Hackathon Writeup - пост на форуме со ссылкой на свой проект и подробным объяснением сделанного.

Медальки и очки за такое не дают, так что участие происходит только за призы от организаторов.

#datascience
​​SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents

Ребята из Nebius представили SWE-rebench — масштабируемый, автоматически обновляемый датасет из более чем 21к интерактивных Python-задач с GitHub для оценки LLM-агентов в задачах кодинга. Он решает две ключевые проблемы: нехватку реалистичных тренировочных данных и устаревание статических бенчмарков из-за контаминации. К этому прилагается contamination-free benchmark, показывающий, что результаты некоторых моделей на SWE-bench Verified могут быть переоценены.

Paper
Project
Dataset

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.

Зачем участвовать?

– чтобы понять, какие задачи и инструменты сейчас в тренде,

– увидеть, как устроена работа у коллег в других продуктах,

– узнать, как растут зарплаты и роли в индустрии,

– получить данные, которые можно использовать для самодиагностики и карьерного планирования.

🗂 Пример прошлогоднего исследования — devcrowd.ru/ds24, мой пост.

📝 Опрос займёт 15 минут, результаты появятся в открытом доступе в августе.

👉 Пройти опрос
Cursor 1.0

Сегодня Cursor дошёл до версии 1.0!
https://www.cursor.com/en/changelog/1-0
Добавили бота для PR ревью, Background Agent для всех, агент для Jupyter Notebook, память и всякое остальное.

Обсуждение на ycombinator.

#datascience
​​- мы хотим AGI, мы хотим, чтобы агенты начали думать
- агенты пытаются делать что-то неожиданное
- нет, не так!!!
Monarch: a distributed execution engine for PyTorch

"Our overall goal is to deliver the high-quality user experience that people get from single-GPU PyTorch, but at cluster scale."
Официально от разработчиков PyTorch, выглядит интересно

https://github.com/pytorch-labs/monarch

#datascience
Anki vs AnkiPro - трагикомедия

В течение последних нескольких недель я наблюдал большое бурление в узких кругах.

Есть программа Anki - один из самых известных инструментов для создания и ревью flashcards.

Она бесплатная для большинства платформ кроме Apple - для iPhone/iPad есть платная версия AnkiMobile. Заплатил один раз - и полный доступ навсегда.

Юзеры любят платформу, но иногда появляются критикующие. Основные причины недовольства - древний интерфейс и желательно почитать хотя бы базовые мануалы перед началом использования.

Неудивительно, что появляются альтернативы и желающие заработать.
И вот довольно давно появилось новое приложение для iPhone/iPad - Anki Pro. Оно не от официальных разработчиков Anki, но название похожее и дизайн практически скопирован. Поэтому многие люди покупают его и думают, что это официальное приложение. Основные его плюсы - более современный и простой интерфейс, а также упрощённый доступ к большому количеству колод карт на разные темы. Из минусов - нет нормальной возможности экспорта из него; подписка, которая через несколько месяцев по стоимости перекрывает единоразовый платёж за официальное приложение; хуже алгоритм scheduling карточек; меньше кастомизации и так далее.

Разработчики настоящего Anki пытались что-то делать (вот тут рассказ), но ничего не получилось.
На форумах и реддите люди годами советовали людям не трогать AnkiPro, но не помогало.

И вдруг недавно, у разработчиков Anki Pro упал сервер... и у всех юзеров пропал доступ к своим карточкам. В реальном anki это невозможно, ибо всё хранится не только на сервере, но и на девайсах юзеров локально. И сервер лежал несколько дней, так что люди были реально недовольны.

Но дальше пошло ещё хуже. Есть аддон, который позволяет перенести данные с Anki Pro на настоящий Anki. Недовольные юзеры стали его использовать, чтобы перейти на настоящий Anki. Ответ разрабоов Anki Pro был просто эпичен и безумен - теперь, при попытке использовать этот аддон, людей перекидывает на видео Rick-roll...

Юзеры совсем охренели от этого. И у разработчиков Anki переполнилась чаша терпения - они начали регистрировать trademark.

Разработчики AnkiPro шустро переименовались в Noji. Точнее они удалили старой приложение и скопировали его под новым названием. Юзеры теперь не уверены в том, что их данные будут перенесены туда. Кто может - переходит на Anki.

Вот такая история.

#languages
​​The state of AI discourse on twitter
Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasonings

Авторы (разрабочики Qwen) показывают, что в RLVR для улучшения reasoning LLM ключевую роль играют high-entropy "forking tokens" — те, которые определяют ветвление хода рассуждений. Обновляя policy gradient только по этим 20% токенов, можно не только сохранить, но и улучшить качество reasoning (особенно на больших моделях), а обучение только на low-entropy токенах резко ухудшает результат.

Выглядит довольно интересно. Правда сработало только на Qwen-ах - авторы попробовали применить подход к LLAMA и заметных результатов не получили.

Paper
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
Forwarded from AI.Insaf
В Х пропушили библиотеку Memvid, у которой уже 5 тысяч ⭐️ на GitHub. Теперь вместо векторных баз данных предлагают хранить всё в видеофайлах, где каждый кадр — это QR-код. Правда, как справедливо заметили в комментариях, внутри всё равно крутится FAISS и те же векторные базы. Вот до чего доводит вайб-кодинг
​​Pride Month у инженеров
HuggingFace deprecating TensorFlow and Flax support in transformers

https://x.com/LysandreJik/status/1933201171130593530

Прошла эпоха...
Карьерные новости

Осенью 2024 меня сократили из Careem. Частично косты резали, частично политика, частично корпоративная культура. Впрочем, весь год компания сокращала людей для уменьшения костов. Через пару дней после этого, я съездил на DataFest Yerevan, где рассказал об одном из успешных рабочих проектов...

А спустя пару недель мне написал рекрутёр из Meta и предложил снова пообщаться (прошлый раз был в 2022). Я собеседовался на Staff/E6, но прошёл на Senior/E5.

На прошлой неделе переехал в Лондон и в этот понедельник вышел на работу. Пока 2-3 недели будут обучения, дальше предстоит работать в команде монетизации и делать look-a-like на contrastive learning.

Пока привыкаю к жизни в новом городе, позже расскажу как проходили собеседования, как к ним готовился, как шёл переезд.

#datascience #life
2025/06/19 03:10:25
Back to Top
HTML Embed Code: