Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/gonzo_ML/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
gonzo-обзоры ML статей | Telegram Webview: gonzo_ML/165 -
Telegram Group & Telegram Channel
Compressive Transformers for Long-Range Sequence Modelling
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Статья: https://arxiv.org/abs/1911.05507

Ещё более продвинутый трансформер от DeepMind’а. По сути расширение Transformer-XL путём добавления долговременной сжатой памяти.

Transformer-XL был достижением в том смысле, что позволил работать с более длинными последовательностями, которые не влезают в attention span трансформера. Там это достигалось за счёт сохранения состояний от предыдущего attention span и таким образом рекурсивно и от предыдущих ему тоже.

Увеличивать глубину памяти трансформера непросто, в основном из-за квадратичной вычислительной сложности механизма внимания, а также из-за дополнительных костов на хранение. Проблему вычислительной сложности решал Sparse Transformer от OpenAI, но он не решал проблему хранения, плюс его эффективная имплементация нетривиальна. Также был трансформер с адаптивным attention span (https://www.group-telegram.com/br/gonzo_ML.com/99), но его вычисления вроде как не реализуются эффективно на текущем железе типа TPU (что впрочем противоречиво, потому что этот трансформер вроде как может быть обучен на довольно слабом железе за разумное время в отличие от других трансформеров, https://arxiv.org/pdf/1911.11423). В текущей работе авторы преследуют цель компактного хранения прошлого, желательно так чтобы это работало со стандартной простой dense линейной алгеброй.

В Compressive Transformer’е реализован двухуровневый механизм памяти. Первый уровень памяти (short-term) аналогичен памяти Transformer XL. Второй уровень (long-term) -- новый, в него память уходит из краткосрочной памяти, подвергаясь сжатию в процессе переноса. Механизм внимания смотрит на текущую последовательность + краткосрочную память + долгосрочную память.

Попутно с новым тратсформером авторы собрали и новый датасет для тестирования long-term dependencies. Это датасет из книг Проекта Гутенберг, называется PG-19 (книги до 1919 года, привет авторским правам). Датасет огромен, средняя длина последовательности сильно больше аналогов. Это круто.

Эксперименты как полагается показали, что новый трансформер лучше прежних, включая Transformer-XL (на мой взгляд важно также, что Adaptive Transformer также очень хорош и не особо сильно отстаёт). Разница больше заметна на новом датасете, а также на редких словах.

Также показали, что работает на звуке лучше Transformer-XL и даже не хуже WaveNet. А также делает IMPALA (штука из RL) лучше, если заменить им встроенный LSTM.

Предложенный механизм вполне ортогонален многим другим улучшениям трансформеров. Так что ждём новых комбинаций. И как полагается, теперь ждём новых BERT/XLNet/GPT-2/...



group-telegram.com/gonzo_ML/165
Create:
Last Update:

Compressive Transformers for Long-Range Sequence Modelling
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Статья: https://arxiv.org/abs/1911.05507

Ещё более продвинутый трансформер от DeepMind’а. По сути расширение Transformer-XL путём добавления долговременной сжатой памяти.

Transformer-XL был достижением в том смысле, что позволил работать с более длинными последовательностями, которые не влезают в attention span трансформера. Там это достигалось за счёт сохранения состояний от предыдущего attention span и таким образом рекурсивно и от предыдущих ему тоже.

Увеличивать глубину памяти трансформера непросто, в основном из-за квадратичной вычислительной сложности механизма внимания, а также из-за дополнительных костов на хранение. Проблему вычислительной сложности решал Sparse Transformer от OpenAI, но он не решал проблему хранения, плюс его эффективная имплементация нетривиальна. Также был трансформер с адаптивным attention span (https://www.group-telegram.com/br/gonzo_ML.com/99), но его вычисления вроде как не реализуются эффективно на текущем железе типа TPU (что впрочем противоречиво, потому что этот трансформер вроде как может быть обучен на довольно слабом железе за разумное время в отличие от других трансформеров, https://arxiv.org/pdf/1911.11423). В текущей работе авторы преследуют цель компактного хранения прошлого, желательно так чтобы это работало со стандартной простой dense линейной алгеброй.

В Compressive Transformer’е реализован двухуровневый механизм памяти. Первый уровень памяти (short-term) аналогичен памяти Transformer XL. Второй уровень (long-term) -- новый, в него память уходит из краткосрочной памяти, подвергаясь сжатию в процессе переноса. Механизм внимания смотрит на текущую последовательность + краткосрочную память + долгосрочную память.

Попутно с новым тратсформером авторы собрали и новый датасет для тестирования long-term dependencies. Это датасет из книг Проекта Гутенберг, называется PG-19 (книги до 1919 года, привет авторским правам). Датасет огромен, средняя длина последовательности сильно больше аналогов. Это круто.

Эксперименты как полагается показали, что новый трансформер лучше прежних, включая Transformer-XL (на мой взгляд важно также, что Adaptive Transformer также очень хорош и не особо сильно отстаёт). Разница больше заметна на новом датасете, а также на редких словах.

Также показали, что работает на звуке лучше Transformer-XL и даже не хуже WaveNet. А также делает IMPALA (штука из RL) лучше, если заменить им встроенный LSTM.

Предложенный механизм вполне ортогонален многим другим улучшениям трансформеров. Так что ждём новых комбинаций. И как полагается, теперь ждём новых BERT/XLNet/GPT-2/...

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/165

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. False news often spreads via public groups, or chats, with potentially fatal effects. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from br


Telegram gonzo-обзоры ML статей
FROM American