Я пока основное свободное время трачу на развитие и обновление своей системы генерации обзоров, на ручное временно не хватает. Но поток интересных статей не ослабевает, среди прочего хочу обратить внимание на новый подход "grafting", позволяющий экспериментировать с тяжелыми предобученными диффузионками и заменять их на более лёгкие почти без потери качества. А также менять архитектуру имеющихся моделей. В примере авторы распараллелили 28-слойную модель, заменив пары последовательных слоёв на параллельные, и побили более глубокие варианты и запруненные до тех же 14 слоёв модели.
Автообзор тут: https://www.group-telegram.com/gonzo_ML.com_podcasts/224
Заодно скажите, как вам новый формат автообзора?
Автообзор тут: https://www.group-telegram.com/gonzo_ML.com_podcasts/224
Заодно скажите, как вам новый формат автообзора?
Telegram
gonzo_ML_podcasts
Exploring Diffusion Transformer Designs via Grafting
Authors: Keshigeyan Chandrasegaran, Michael Poli, Daniel Y. Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei…
Authors: Keshigeyan Chandrasegaran, Michael Poli, Daniel Y. Fu, Dongjun Kim, Lea M. Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, Stefano Ermon, Li Fei-Fei…
Forwarded from КПД
Log-Linear Attention
[Статья][Код]
Введение
Вообще, давно пора было бы смириться с тем фактом, что лучше Attention ничего нет на свете, но человек в своем упрямстве продолжает искать альтернативы более быстрые и не уступающие по качеству.
И коллектив авторов (звезд Голливуда в мире AI) выкатил статью про очередного "убийцу" ☠️ Attention -
[Статья][Код]
Введение
Вообще, давно пора было бы смириться с тем фактом, что лучше Attention ничего нет на свете, но человек в своем упрямстве продолжает искать альтернативы более быстрые и не уступающие по качеству.
И коллектив авторов (звезд Голливуда в мире AI) выкатил статью про очередного "убийцу" ☠️ Attention -
Log-Linear Attention
.Forwarded from КПД
Метод
Почти с момента выхода Attention было предложено много альтернатив с субквадратичной сложностью. Если убрать softmax в Attention - операцию можно посчитать за линейное по длине последовательности число операций. Аналогично, SSM (S4, Mamba-1/2), DeltaNet линейно масштабируются с ростом числа токенов. Тем не менее, несмотря на успехи на отдельных задачах - вытеснить трансформер с пьедестала никому не удалось.
Попытка запихнуть весь контекст в скрытое состояние фиксированного размера, по всей видимости, фундаментально ограничивает модель в возможности знать все в длинном контексте.
Потому предлагается промежуточный вариант - логарифмическая по памяти и времени операция, являющаяся надстройкой над одним из линейных механизмов attention. Токены разбиваются на корзинки с экспоненциально растущим числом токенов. Самые свежие токены обычно важнее для предсказания следующего, потому в одной корзине меньше токенов, и, соответственно, их вес больше, а с отдалением от текущей позиции размер корзинок растет, а вклад индивидуальных токенов убывает. Log-Linear attention сначала вычисляет линейный attention по корзинкам, а затем суммирует с некоторыми обучаемыми коэффициентами результат каждой корзинки (коэффициенты предсказывает отдельная MLP). Число корзинок растет логарифмически с длиной - потому и имеем
Log-Linear Attention можно представить в виде структурированной матрицы HODLR (Hierarchically Off-Diagonal Low-Rank), где диагональные блоки нижнетреугольные, а внедиагональная часть состоит из блоков ранга-1, где размер блока растет с удалением от диагонали.
Log-Linear Attention можно применить как поверх Linear Attention, так и Mamba-2 и DeltaNet. И для всего написаны соответствующие кернелы.
Эксперименты
Для валидации метода авторы обучают модельки на синтетических и реальных задачах.
На синтетике Log-Linear модификация значительно улучшает качество DeltaNet на MQAR (достать несколько элементов из контекста).
Далее авторы обучают в сопоставимых условиях (700-800M параметров, 50B токенов из Long-Data-Collections с длиной последовательности 16k) Transformer, DeltaNet и Mamba-2 (без и с Log-Linear надстройки). Log-Linear дает небольшой прирост поверх DeltaNet и Mamba-2.
По скорости инференса на длинных контекстах Log-Linear Mamba-2 медленнее Mamba-2 (в ~2 раза на 64k/128k токенах), но быстрее Attention.
На Needle-in-Haystack в бенче, где нужно достать один токен Log-Linear хорош, в multi-key/multi-value задачах Log-Linear лучше линейных бейзлайнов, но хуже Attention.
На LongBench где-то дает прирост, а где-то не дает.
За что уважение авторам - они не утверждают, что предложенная модификация бьет все и всея, а стараются более менее честно все замерить.
Выводы
С точки зрения математики все красиво - вообще вопросов нет, и уважение 🤠 мастерам написания ядер на CUDA. В целом выглядит как неплохой промежуточный вариант между Attention и линейными по длине альтернативами, но как будто требует валидации бюджетах и размерах моделей ближе к production-grade.
Почти с момента выхода Attention было предложено много альтернатив с субквадратичной сложностью. Если убрать softmax в Attention - операцию можно посчитать за линейное по длине последовательности число операций. Аналогично, SSM (S4, Mamba-1/2), DeltaNet линейно масштабируются с ростом числа токенов. Тем не менее, несмотря на успехи на отдельных задачах - вытеснить трансформер с пьедестала никому не удалось.
Попытка запихнуть весь контекст в скрытое состояние фиксированного размера, по всей видимости, фундаментально ограничивает модель в возможности знать все в длинном контексте.
Потому предлагается промежуточный вариант - логарифмическая по памяти и времени операция, являющаяся надстройкой над одним из линейных механизмов attention. Токены разбиваются на корзинки с экспоненциально растущим числом токенов. Самые свежие токены обычно важнее для предсказания следующего, потому в одной корзине меньше токенов, и, соответственно, их вес больше, а с отдалением от текущей позиции размер корзинок растет, а вклад индивидуальных токенов убывает. Log-Linear attention сначала вычисляет линейный attention по корзинкам, а затем суммирует с некоторыми обучаемыми коэффициентами результат каждой корзинки (коэффициенты предсказывает отдельная MLP). Число корзинок растет логарифмически с длиной - потому и имеем
O(L log L)
как итоговую сложность операции. Для эффективной реализации используют деревья Фенвика.Log-Linear Attention можно представить в виде структурированной матрицы HODLR (Hierarchically Off-Diagonal Low-Rank), где диагональные блоки нижнетреугольные, а внедиагональная часть состоит из блоков ранга-1, где размер блока растет с удалением от диагонали.
Log-Linear Attention можно применить как поверх Linear Attention, так и Mamba-2 и DeltaNet. И для всего написаны соответствующие кернелы.
Эксперименты
Для валидации метода авторы обучают модельки на синтетических и реальных задачах.
На синтетике Log-Linear модификация значительно улучшает качество DeltaNet на MQAR (достать несколько элементов из контекста).
Далее авторы обучают в сопоставимых условиях (700-800M параметров, 50B токенов из Long-Data-Collections с длиной последовательности 16k) Transformer, DeltaNet и Mamba-2 (без и с Log-Linear надстройки). Log-Linear дает небольшой прирост поверх DeltaNet и Mamba-2.
По скорости инференса на длинных контекстах Log-Linear Mamba-2 медленнее Mamba-2 (в ~2 раза на 64k/128k токенах), но быстрее Attention.
На Needle-in-Haystack в бенче, где нужно достать один токен Log-Linear хорош, в multi-key/multi-value задачах Log-Linear лучше линейных бейзлайнов, но хуже Attention.
На LongBench где-то дает прирост, а где-то не дает.
За что уважение авторам - они не утверждают, что предложенная модификация бьет все и всея, а стараются более менее честно все замерить.
Выводы
С точки зрения математики все красиво - вообще вопросов нет, и уважение 🤠 мастерам написания ядер на CUDA. В целом выглядит как неплохой промежуточный вариант между Attention и линейными по длине альтернативами, но как будто требует валидации бюджетах и размерах моделей ближе к production-grade.
Очень обсуждаемая сейчас работа от исследователей из Apple про ризонинг модели: https://www.group-telegram.com/gonzo_ML.com_podcasts/234
Из интересного, авторы постарались уйти от контаминированных датасетов для оценки ризонинга и сумели оценивать не только конечный результат, но и промежуточные шаги. Выводы нетривиальны и очень интересны: для простых задач LLM лучше LRM, для задач средней сложности LRM особенно хороши, а на сложных задачах LRM (как и LLM) фейлятся капитально. При этом по мере усложнения задачи LRM может не особо стараться и просто сдаться в какой-то момент, даже если бюджета хватает.
Из интересного, авторы постарались уйти от контаминированных датасетов для оценки ризонинга и сумели оценивать не только конечный результат, но и промежуточные шаги. Выводы нетривиальны и очень интересны: для простых задач LLM лучше LRM, для задач средней сложности LRM особенно хороши, а на сложных задачах LRM (как и LLM) фейлятся капитально. При этом по мере усложнения задачи LRM может не особо стараться и просто сдаться в какой-то момент, даже если бюджета хватает.
Telegram
gonzo_ML_podcasts
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity
Parshin Shojaee, Iman Mirzadeh, Maxwell Horton, Samy Bengio, Keivan Alizadeh, Mehrdad Farajtabar
Paper: https://ml-site.cdn-apple.com/papers/the…
Parshin Shojaee, Iman Mirzadeh, Maxwell Horton, Samy Bengio, Keivan Alizadeh, Mehrdad Farajtabar
Paper: https://ml-site.cdn-apple.com/papers/the…
В автообзорах пополнение, статья про DataRater (https://www.group-telegram.com/gonzo_ML.com_podcasts/245).
Тема про "не все данные одинаково полезны". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win.
Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (https://www.group-telegram.com/gonzo_ML.com/143). Результат был немного эзотерическим, но крайне интересным!
Тема про "не все данные одинаково полезны". Очень классное направление — не архитектуру улучшаем в очередной раз, а внимательно смотрим на данные, чтобы отобрать те, что реально улучшают обучение. Для этого берут не эвристики, а метаобучением выучивают модель, которая определяет качество каждого элемента данных, и выкидывают самые плохие. В итоге не только экономят порядка 40%+ вычислений, но ещё и улучшают качество модели. Win-win.
Кстати, когда-то давно (боже, уже 7 лет назад) был другой интересный заход на похожую тему — дистилляция датасетов (https://www.group-telegram.com/gonzo_ML.com/143). Результат был немного эзотерическим, но крайне интересным!
Telegram
gonzo_ML_podcasts
DataRater: Meta-Learned Dataset Curation
Authors: Dan A. Calian*, Gregory Farquhar*, Iurii Kemaev*, Luisa M. Zintgraf*, Matteo Hessel, Jeremy Shar, Junhyuk Oh, András György, Tom Schaul, Jeffrey Dean, Hado van Hasselt, David Silver
Paper: https://arxiv.o…
Authors: Dan A. Calian*, Gregory Farquhar*, Iurii Kemaev*, Luisa M. Zintgraf*, Matteo Hessel, Jeremy Shar, Junhyuk Oh, András György, Tom Schaul, Jeffrey Dean, Hado van Hasselt, David Silver
Paper: https://arxiv.o…
Классная движуха про демократизацию моделей «зрение-язык-действие» (Vision-Language-Action, VLA). Авторы обучили SmolVLA — компактную модель для управления роботом. Модель в 10 раз меньше конкурентов, всего 450M параметров, при этом как правило лучше. С таким размером можно влезть на очень разное железо. И это ещё без квантования.
https://www.group-telegram.com/gonzo_ML.com_podcasts/255
В опенсорс робототехнике сейчас что-то происходит, начинается большая движуха. В эти выходные, кстати, глобальный хакатон LeRobot, участвует 100+ городов по всему миру: https://huggingface.co/LeRobot-worldwide-hackathon
https://www.group-telegram.com/gonzo_ML.com_podcasts/255
В опенсорс робототехнике сейчас что-то происходит, начинается большая движуха. В эти выходные, кстати, глобальный хакатон LeRobot, участвует 100+ городов по всему миру: https://huggingface.co/LeRobot-worldwide-hackathon
Telegram
gonzo_ML_podcasts
SmolVLA: A vision-language-action model for affordable and efficient robotics
Authors: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon…
Authors: Mustafa Shukor, Dana Aubakirova, Francesco Capuano, Pepijn Kooijmans, Steven Palma, Adil Zouitine, Michel Aractingi, Caroline Pascal, Martino Russi, Andres Marafioti, Simon…
Sakana.AI продолжает рулить! Придумали Text-to-LoRA (T2L), в котором по текстовому описанию задачи обученная гиперсеть (моя любимая тема, см. https://www.group-telegram.com/gonzo_ML.com/1696, https://www.group-telegram.com/gonzo_ML.com/2394, https://www.group-telegram.com/gonzo_ML.com/2693) на лету генерит LoRA адаптеры и модифицирует базовую сеть. Не надо ничего обучать, даже лорой, просто пиши ясные описания задач!
https://www.group-telegram.com/gonzo_ML.com_podcasts/268
Я бы ожидал, что LLM следующих поколений будут иметь что-то подобное внутри. Может не лора адаптеры будут генерить, а сразу активации модифицировать. Крутой движ.
https://www.group-telegram.com/gonzo_ML.com_podcasts/268
Я бы ожидал, что LLM следующих поколений будут иметь что-то подобное внутри. Может не лора адаптеры будут генерить, а сразу активации модифицировать. Крутой движ.
Telegram
gonzo-обзоры ML статей
HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
Статья: https://arxiv.org/abs/2307.06949
Сайт: htt…
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman
Статья: https://arxiv.org/abs/2307.06949
Сайт: htt…
В стане RNN пополнение, MesaNet, являющийся дальнейшим развитием Mesa-слоя из работы про мезаоптимизацию (https://www.group-telegram.com/gonzo_ML.com/1855). В новой работе архитектура и слой проработаны основательно, результаты RNN на синтетических тестах очень хороши, но всё равно показывают интересную особенность: подобно другим RNN, MesaNet работает лучше трансформеров на ранних токенах в последовательности, но трансформеры сохраняют преимущество на поздних токенах.
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/280
Подробнее: https://www.group-telegram.com/gonzo_ML.com_podcasts/280
Telegram
gonzo-обзоры ML статей
Uncovering mesa-optimization algorithms in Transformers
Johannes von Oswald, Eyvind Niklasson, Maximilian Schlegel, Seijin Kobayashi, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Agüera y Arcas, Max Vladymyrov, Razvan Pascanu, João Sacramento…
Johannes von Oswald, Eyvind Niklasson, Maximilian Schlegel, Seijin Kobayashi, Nicolas Zucchet, Nino Scherrer, Nolan Miller, Mark Sandler, Blaise Agüera y Arcas, Max Vladymyrov, Razvan Pascanu, João Sacramento…
Вдруг вам нечем заняться в субботу вечером, а тут свежий Теренс Тао
https://www.youtube.com/watch?v=HUkBz-cdB-k
https://www.youtube.com/watch?v=HUkBz-cdB-k
YouTube
Terence Tao: Hardest Problems in Mathematics, Physics & the Future of AI | Lex Fridman Podcast #472
Terence Tao is widely considered to be one of the greatest mathematicians in history. He won the Fields Medal and the Breakthrough Prize in Mathematics, and has contributed to a wide range of fields from fluid dynamics with Navier-Stokes equations to mathematical…
Интересная новость от Huggingface. Компания не осилила multi-backend и прекращает поддержку всего кроме PyTorch (то есть JAX и TF) в своей либе transformers начиная с версии 5. 4-я LTS версия будет жива до лета 2026. Компания беспокоится, что библиотека разрослась, и обещает убрать 50% кода и разросшиеся абстракции. Новость тут: https://x.com/LysandreJik/status/1933201171130593530, PR тут: https://github.com/huggingface/transformers/pull/38758
Это любопытно. JAX при этом вполне жив и активно используется (из больших игроков как минимум модели Гугла и xAI обучаются на нём), статей тоже достаточно, а TF и правда не выглядит сильно живым, но наверняка он сидит в разных продакшн и мобильных деплойментах. Судя по paperswithcode (https://paperswithcode.com/trends) доля JAX наконец превысила долю TF. У обоих правда она невысока, у JAX 3%, у TF 2%. Интересно, что у MindSpore от Huawei уже 6%. Не совсем понятно, что там в other languages and frameworks с 31%.
Не знаю, как относиться, будем посмотреть. Я сам понял, что тоже не то чтобы активно использую transformers, все мои последние эксперименты с LLM шли мимо него. Но жаль всё-таки, что не получилось тру мультибэкенда.
Это любопытно. JAX при этом вполне жив и активно используется (из больших игроков как минимум модели Гугла и xAI обучаются на нём), статей тоже достаточно, а TF и правда не выглядит сильно живым, но наверняка он сидит в разных продакшн и мобильных деплойментах. Судя по paperswithcode (https://paperswithcode.com/trends) доля JAX наконец превысила долю TF. У обоих правда она невысока, у JAX 3%, у TF 2%. Интересно, что у MindSpore от Huawei уже 6%. Не совсем понятно, что там в other languages and frameworks с 31%.
Не знаю, как относиться, будем посмотреть. Я сам понял, что тоже не то чтобы активно использую transformers, все мои последние эксперименты с LLM шли мимо него. Но жаль всё-таки, что не получилось тру мультибэкенда.
Интересная работа от соавтора резнетов. Новый лосс для диффузионок, позволяющий получать бенефиты контрастивного обучения без положительных пар. Дешёвый лосс, который при добавлении к сильным бейзлайнам, заметно их улучшает.
Читать тут: https://www.group-telegram.com/gonzo_ML.com_podcasts/303
Читать тут: https://www.group-telegram.com/gonzo_ML.com_podcasts/303
Telegram
gonzo_ML_podcasts
Diffuse and Disperse: Image Generation with Representation Regularization
Runqian Wang, Kaiming He
Статья: https://arxiv.org/abs/2506.09027
Код: в статье не представлен.
💡 Что сделали?
Авторы представляют «дисперсионный лосс» (Dispersive Loss) — простой…
Runqian Wang, Kaiming He
Статья: https://arxiv.org/abs/2506.09027
Код: в статье не представлен.
💡 Что сделали?
Авторы представляют «дисперсионный лосс» (Dispersive Loss) — простой…
Интересно про то, как построен Курсор
https://newsletter.pragmaticengineer.com/p/cursor
Paywall, но довольно большая часть доступна
https://newsletter.pragmaticengineer.com/p/cursor
Paywall, но довольно большая часть доступна
Pragmaticengineer
Real-world engineering challenges: building Cursor
Cursor has grown 100x in load in just a year, sees 1M+ QPS for its data layer, and serves billions of code completions, daily. A deepdive into how it’s built with cofounder, Sualeh Asif
Вот ещё очень интересная картинка, спасибо Fedor Shabashev за ссылку.
https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/
Страна аффилиации первого автора
https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/
Страна аффилиации первого автора