group-telegram.com/gonzo_ML/65
Last Update:
3.3. Sparse Transformer, 2019 april, OpenAI
Блогопост: https://openai.com/blog/sparse-transformer/
Статья: https://arxiv.org/abs/1904.10509
Код: https://github.com/openai/sparse_attention
Модификация механизма внимания, позволяющая увеличить длину входа. На self-reported тестах более эффективен чем Transformer-XL
При высчислении обычного внимания сложность вычислений Х^2, где Х -- длина входа, т.к. мы считаем внимание с каждого элемента на каждый. Другими словами, внимание это квадратная симметричная матрица. Оказывается, если долго смотреть на эти матрицы, можно узреть паттерны -- часто возникающие схемы внимания, которые сильно проще чем Х^2 и легко факторизуются. Это позволяет считать внимание не по всем элементам, а по небольшому подмножеству, перейдя от Х^2 почти к О(Х). Авторы предлагают две простые факторизации внимания -- strided и fixed. Как следствие это позволяет сильно увеличить размер окна -- обрабатывать Трансформером сырой звук и картинки, что раньше не делали именно из-за того, что в него сложно впихнуть что-то длинное. На текстах они сделали какой-то один SOTA замер, надо последить, что дальше будет.
Поясняющую картинку см выше.
На этом у меня пока всё.
Если что-то важное забыл, пишите в личку, @altsoph.
BY gonzo-обзоры ML статей
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/gonzo_ML/65