gonzo_ML Telegram Group

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

7.2K views16:12

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

8.1K views16:12

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

7.9K views16:12

gonzo-обзоры ML статей

Хинтона вам в ленту

9.1K views21:11

gonzo-обзоры ML статей

Вот ещё тоже прекрасное

8.6K views09:59

gonzo-обзоры ML статей

Я пока основное свободное время трачу на развитие и обновление своей системы генерации обзоров, на ручное временно не хватает. Но поток интересных статей не ослабевает, среди прочего хочу обратить внимание на новый подход "grafting", позволяющий экспериментировать с тяжелыми предобученными диффузионками и заменять их на более лёгкие почти без потери качества. А также менять архитектуру имеющихся моделей. В примере авторы распараллелили 28-слойную модель, заменив пары последовательных слоёв на параллельные, и побили более глубокие варианты и запруненные до тех же 14 слоёв модели.

Автообзор тут: https://www.group-telegram.com/gonzo_ML.com_podcasts/224

Заодно скажите, как вам новый формат автообзора?

gonzo_ML_podcasts

Exploring Diffusion Transformer Designs via Grafting
Authors: Keshigeyan Chandrasegaran, Michael Poli, Daniel Y. Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei…

6.6K viewsedited 19:44

gonzo-обзоры ML статей

Forwarded from КПД

Log-Linear Attention
[Статья][Код]

Введение

Вообще, давно пора было бы смириться с тем фактом, что лучше Attention ничего нет на свете, но человек в своем упрямстве продолжает искать альтернативы более быстрые и не уступающие по качеству.

И коллектив авторов (звезд Голливуда в мире AI) выкатил статью про очередного "убийцу" ☠️ Attention - Log-Linear Attention .

5.7K views20:29

gonzo-обзоры ML статей

Forwarded from КПД

Метод

Почти с момента выхода Attention было предложено много альтернатив с субквадратичной сложностью. Если убрать softmax в Attention - операцию можно посчитать за линейное по длине последовательности число операций. Аналогично, SSM (S4, Mamba-1/2), DeltaNet линейно масштабируются с ростом числа токенов. Тем не менее, несмотря на успехи на отдельных задачах - вытеснить трансформер с пьедестала никому не удалось.

Попытка запихнуть весь контекст в скрытое состояние фиксированного размера, по всей видимости, фундаментально ограничивает модель в возможности знать все в длинном контексте.

Потому предлагается промежуточный вариант - логарифмическая по памяти и времени операция, являющаяся надстройкой над одним из линейных механизмов attention. Токены разбиваются на корзинки с экспоненциально растущим числом токенов. Самые свежие токены обычно важнее для предсказания следующего, потому в одной корзине меньше токенов, и, соответственно, их вес больше, а с отдалением от текущей позиции размер корзинок растет, а вклад индивидуальных токенов убывает. Log-Linear attention сначала вычисляет линейный attention по корзинкам, а затем суммирует с некоторыми обучаемыми коэффициентами результат каждой корзинки (коэффициенты предсказывает отдельная MLP). Число корзинок растет логарифмически с длиной - потому и имеем O(L log L) как итоговую сложность операции. Для эффективной реализации используют деревья Фенвика.

Log-Linear Attention можно представить в виде структурированной матрицы HODLR (Hierarchically Off-Diagonal Low-Rank), где диагональные блоки нижнетреугольные, а внедиагональная часть состоит из блоков ранга-1, где размер блока растет с удалением от диагонали.

Log-Linear Attention можно применить как поверх Linear Attention, так и Mamba-2 и DeltaNet. И для всего написаны соответствующие кернелы.

Эксперименты

Для валидации метода авторы обучают модельки на синтетических и реальных задачах.

На синтетике Log-Linear модификация значительно улучшает качество DeltaNet на MQAR (достать несколько элементов из контекста).

Далее авторы обучают в сопоставимых условиях (700-800M параметров, 50B токенов из Long-Data-Collections с длиной последовательности 16k) Transformer, DeltaNet и Mamba-2 (без и с Log-Linear надстройки). Log-Linear дает небольшой прирост поверх DeltaNet и Mamba-2.

По скорости инференса на длинных контекстах Log-Linear Mamba-2 медленнее Mamba-2 (в ~2 раза на 64k/128k токенах), но быстрее Attention.

На Needle-in-Haystack в бенче, где нужно достать один токен Log-Linear хорош, в multi-key/multi-value задачах Log-Linear лучше линейных бейзлайнов, но хуже Attention.
На LongBench где-то дает прирост, а где-то не дает.

За что уважение авторам - они не утверждают, что предложенная модификация бьет все и всея, а стараются более менее честно все замерить.

Выводы

С точки зрения математики все красиво - вообще вопросов нет, и уважение 🤠 мастерам написания ядер на CUDA. В целом выглядит как неплохой промежуточный вариант между Attention и линейными по длине альтернативами, но как будто требует валидации бюджетах и размерах моделей ближе к production-grade.

6.8K views20:29

gonzo-обзоры ML статей

Очень обсуждаемая сейчас работа от исследователей из Apple про ризонинг модели: https://www.group-telegram.com/gonzo_ML.com_podcasts/234

Из интересного, авторы постарались уйти от контаминированных датасетов для оценки ризонинга и сумели оценивать не только конечный результат, но и промежуточные шаги. Выводы нетривиальны и очень интересны: для простых задач LLM лучше LRM, для задач средней сложности LRM особенно хороши, а на сложных задачах LRM (как и LLM) фейлятся капитально. При этом по мере усложнения задачи LRM может не особо стараться и просто сдаться в какой-то момент, даже если бюджета хватает.

gonzo_ML_podcasts

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
Parshin Shojaee, Iman Mirzadeh, Maxwell Horton, Samy Bengio, Keivan Alizadeh, Mehrdad Farajtabar
Paper: https://ml-site.cdn-apple.com/papers/the…

7.7K views21:03

gonzo-обзоры ML статей

В автообзорах пополнение, статья про DataRater (https://www.group-telegram.com/gonzo_ML.com_podcasts/245).

Тема про "не все данные одинаково полезны". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win.

Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (https://www.group-telegram.com/gonzo_ML.com/143). Результат был немного эзотерическим, но крайне интересным!

gonzo_ML_podcasts

DataRater: Meta-Learned Dataset Curation
Authors: Dan A. Calian*, Gregory Farquhar*, Iurii Kemaev*, Luisa M. Zintgraf*, Matteo Hessel, Jeremy Shar, Junhyuk Oh, András György, Tom Schaul, Jeffrey Dean, Hado van Hasselt, David Silver
Paper: https://arxiv.o…

6.8K views19:32

gonzo-обзоры ML статей

Для тех, кто по Илье соскучился

https://youtu.be/zuZ2zaotrJs?si=w4qfH4eU2-90QR4O

YouTube

Ilya Sutskever, U of T honorary degree recipient, June 6, 2025

From co-authoring seminal research papers to co-founding the research organization that developed ChatGPT, few people have been as influential in shaping the artificial intelligence landscape – and conversations around the technology’s responsible use – as…

6.9K views22:06

gonzo-обзоры ML статей

Классная движуха про демократизацию моделей «зрение-язык-действие» (Vision-Language-Action, VLA). Авторы обучили SmolVLA — компактную модель для управления роботом. Модель в 10 раз меньше конкурентов, всего 450M параметров, при этом как правило лучше. С таким размером можно влезть на очень разное железо. И это ещё без квантования.

https://www.group-telegram.com/gonzo_ML.com_podcasts/255

В опенсорс робототехнике сейчас что-то происходит, начинается большая движуха. В эти выходные, кстати, глобальный хакатон LeRobot, участвует 100+ городов по всему миру: https://huggingface.co/LeRobot-worldwide-hackathon

gonzo_ML_podcasts

SmolVLA: A vision-language-action model for affordable and efficient robotics
Authors: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon…

7.1K views20:48

gonzo-обзоры ML статей

Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по текстовому описанию задачи обученная гиперсеть (моя любимая тема, см. https://www.group-telegram.com/gonzo_ML.com/1696, https://www.group-telegram.com/gonzo_ML.com/2394, https://www.group-telegram.com/gonzo_ML.com/2693) на лету генерит LoRA адаптеры и модифицирует базовую сеть. Не надо ничего обучать, даже лорой, просто пиши ясные описания задач!

https://www.group-telegram.com/gonzo_ML.com_podcasts/268

Я бы ожидал, что LLM следующих поколений будут иметь что-то подобное внутри. Может не лора адаптеры будут генерить, а сразу активации модифицировать. Крутой движ.

gonzo-обзоры ML статей

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
Статья: https://arxiv.org/abs/2307.06949
Сайт: htt…

7.3K viewsedited 12:55

gonzo-обзоры ML статей

В стане RNN пополнение, MesaNet, являющийся дальнейшим развитием Mesa-слоя из работы про мезаоптимизацию (https://www.group-telegram.com/gonzo_ML.com/1855). В новой работе архитектура и слой проработаны основательно, результаты RNN на синтетических тестах очень хороши, но всё равно показывают интересную особенность: подобно другим RNN, MesaNet работает лучше трансформеров на ранних токенах в последовательности, но трансформеры сохраняют преимущество на поздних токенах.

Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/280

gonzo-обзоры ML статей

Uncovering mesa-optimization algorithms in Transformers
Johannes von Oswald, Eyvind Niklasson, Maximilian Schlegel, Seijin Kobayashi, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Agüera y Arcas, Max Vladymyrov, Razvan Pascanu, João Sacramento…

6.5K viewsedited 22:06

gonzo-обзоры ML статей

Вдруг вам нечем заняться в субботу вечером, а тут свежий Теренс Тао

https://www.youtube.com/watch?v=HUkBz-cdB-k

YouTube

Terence Tao: Hardest Problems in Mathematics, Physics & the Future of AI | Lex Fridman Podcast #472

Terence Tao is widely considered to be one of the greatest mathematicians in history. He won the Fields Medal and the Breakthrough Prize in Mathematics, and has contributed to a wide range of fields from fluid dynamics with Navier-Stokes equations to mathematical…

6.1K views20:51

gonzo-обзоры ML статей

Интересная новость от Huggingface. Компания не осилила multi-backend и прекращает поддержку всего кроме PyTorch (то есть JAX и TF) в своей либе transformers начиная с версии 5. 4-я LTS версия будет жива до лета 2026. Компания беспокоится, что библиотека разрослась, и обещает убрать 50% кода и разросшиеся абстракции. Новость тут: https://x.com/LysandreJik/status/1933201171130593530, PR тут: https://github.com/huggingface/transformers/pull/38758

Это любопытно. JAX при этом вполне жив и активно используется (из больших игроков как минимум модели Гугла и xAI обучаются на нём), статей тоже достаточно, а TF и правда не выглядит сильно живым, но наверняка он сидит в разных продакшн и мобильных деплойментах. Судя по paperswithcode (https://paperswithcode.com/trends) доля JAX наконец превысила долю TF. У обоих правда она невысока, у JAX 3%, у TF 2%. Интересно, что у MindSpore от Huawei уже 6%. Не совсем понятно, что там в other languages and frameworks с 31%.

Не знаю, как относиться, будем посмотреть. Я сам понял, что тоже не то чтобы активно использую transformers, все мои последние эксперименты с LLM шли мимо него. Но жаль всё-таки, что не получилось тру мультибэкенда.

11.6K views16:19

gonzo-обзоры ML статей

5.4K views16:23

gonzo-обзоры ML статей

Интересная работа от соавтора резнетов. Новый лосс для диффузионок, позволяющий получать бенефиты контрастивного обучения без положительных пар. Дешёвый лосс, который при добавлении к сильным бейзлайнам, заметно их улучшает.

Читать тут: https://www.group-telegram.com/gonzo_ML.com_podcasts/303

gonzo_ML_podcasts

Diffuse and Disperse: Image Generation with Representation Regularization
Runqian Wang, Kaiming He
Статья: https://arxiv.org/abs/2506.09027
Код: в статье не представлен.

💡 Что сделали?

Авторы представляют «дисперсионный лосс» (Dispersive Loss) — простой…

4.6K views16:19

gonzo-обзоры ML статей

Интересно про то, как построен Курсор

https://newsletter.pragmaticengineer.com/p/cursor

Paywall, но довольно большая часть доступна

Pragmaticengineer

Real-world engineering challenges: building Cursor

Cursor has grown 100x in load in just a year, sees 1M+ QPS for its data layer, and serves billions of code completions, daily. A deepdive into how it’s built with cofounder, Sualeh Asif

4.1K views09:29

gonzo-обзоры ML статей

Вот ещё очень интересная картинка, спасибо Fedor Shabashev за ссылку.

https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/

Страна аффилиации первого автора

2.9K views14:13

2025/06/18 23:24:12
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>