Telegram Group & Telegram Channel
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz



group-telegram.com/ai_newz/3130
Create:
Last Update:

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from es


Telegram эйай ньюз
FROM American