group-telegram.com/ai_newz/3130
Last Update:
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.
Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.
Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.
Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.
И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.
Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.
Пейпер
Код
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/vMv6iSoJvURBT0_98Sid7-Msm2ZU6fXwwy5UxDb4GCJ5u_9NtfFunvLxQbdjLjK_x8Sw08Dz7ySWG2RzqnzVuf1RQSMMMu4i9TdFAUzAfWP8DPc7z5aqgHq4QmT2rNA3T_Hnm9yNH5J7pwkL_12K1IognDW4Ex2sdaVjIHk2cDQ6a_EzBT4Lhv43fbDW_VURsdGbFtw6bLteNGAwjvcHkBN5yesYCbL57BivkzwcWkItLXSV9BVEzE5B1QsfWHQOHOoCl-_N6ZkgiBAgU7hTkmJ7GBNoKJzD9TePp7-TlTjDB1nvoz7cO0s5WCnlkvXrL-kqMXr2hRvXPdyJy4vrig.jpg)
Share with your friend now:
group-telegram.com/ai_newz/3130