group-telegram.com/rizzearch/260
Last Update:
Дайджест по всем махинациям с аттеншном в трансформере
1. In-Context Language Learning: Architectures and Algorithms - механизм внимания точнее всех моделирует индуктивные (и н-грамм) головы, оттого и присутствует in-context phenomenon (интересно в тему и это прочитать)
2. The Hedgehog & the Porcupine: Expressive Linear Attentions with Softmax Mimicry - дистиллируем классический аттеншн в линейный наиболее прямым образом, получаем профит
3. Linear Transformers with Learnable Kernel Functions are Better In-Context Models - не отвергаем базу, а выстраиваем от нее результаты лучше
4. Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention - интересная и практичная попытка снять ограничения длины контекста (надеюсь что работает)
5. Think before you speak: Training Language Models With Pause Tokens - ллмкам на загадку жака фреско тоже требуются размышления
6. Efficient Streaming Language Models with Attention Sinks - сливаем “ненужный аттеншн” в фиктивные токены и радуемся результатам
7. Contextual Position Encoding: Learning to Count What's Important - заставляем позиционное кодирование зависеть от близости запросов и ключей, получем прямую связь позиции с контекстом
8. TransformerFAM: Feedback attention is working memory - привносим в аттеншн понятие рабочей памяти на том же уровне глубины модели (и пытаемся так аппроксимировать хидден стейт рнн)
Feel free to enjoy the papers with us!
BY rizzearch
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/rizzearch/260