Telegram Group & Telegram Channel
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz



group-telegram.com/ai_newz/3130
Create:
Last Update:

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

В последние годы сложно найти сферу в ML где SOTA это не трансформер. Но у трансформера есть Ахиллесова пята - по компьюту он остаётся квадратичными. При маленькой длине контекста это не супер важно, но тренировать трансформеры с контекстом в миллионы токенов довольно дорого, так что идёт активный поиск архитектур на замену.

Основные кандидаты на замену сейчас это State Space Models (SSM) и так называемые Linear Transformers (которые в пейперах часто называют просто трансформерами, что неописуемо бесит). Где-то на фоне ещё есть перерождение RNN в виде RWKV и CNN в виде Hyena. Все они пока не могут победить механизм внимания в 100% случаев, там есть недостатки. О других архитектурах напишу как-то в другой раз, а сейчас речь зайдёт о линейном трансформере.

Основная идея линейного трансформера - апроксимировать поиск схожести между queries и keys. Происходит это пропуском queries и keys через какой-то предопределённый кернел и заменой квадратичных частей аттеншна простым суммированием. Из-за важности основной вектор улучшения этого семейства моделей - как раз в поиске оптимальной функции.

Тут появляется BASED - модель, которая использует квадратичную аппроксимацию экспоненты в качестве кернела. Это позволяет ей лучше справляться с задачами обучения в контексте, чем другие линейные модели. Но у BASED есть свои проблемы - она не очень хорошо игнорирует ненужные токены в длинных последовательностях.

И тут на сцену выходит ReBased - эволюция BASED. Ресерчеры из T-Bank AI Research провели анализ недостатков BASED и внесли несколько изменений, исправляющих недостатки. ReBased добавляет обучаемые параметры в кернел и нормализацию перед его применением. Это позволяет модели лучше адаптироваться к данным и эффективнее обрабатывать длинные последовательности. ReBased показывает результаты лучше BASED на задачах ассоциативного восстановления и языкового моделирования, особенно когда дело касается длинных контекстов.

Результаты вышли чуть хуже трансформера, но при этом модель бегает быстрее. Поиск продолжается, но подход интересный - статью на этой неделе презентовали на ACL - главной конференции по NLP в мире.

Пейпер
Код

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client.
from us


Telegram эйай ньюз
FROM American