Telegram Group & Telegram Channel
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz



group-telegram.com/ai_newz/3130
Create:
Last Update:

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. In 2018, Russia banned Telegram although it reversed the prohibition two years later. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike.
from ru


Telegram эйай ньюз
FROM American