Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/gonzo_ML/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
gonzo-обзоры ML статей | Telegram Webview: gonzo_ML/165 -
Telegram Group & Telegram Channel
Compressive Transformers for Long-Range Sequence Modelling
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Статья: https://arxiv.org/abs/1911.05507

Ещё более продвинутый трансформер от DeepMind’а. По сути расширение Transformer-XL путём добавления долговременной сжатой памяти.

Transformer-XL был достижением в том смысле, что позволил работать с более длинными последовательностями, которые не влезают в attention span трансформера. Там это достигалось за счёт сохранения состояний от предыдущего attention span и таким образом рекурсивно и от предыдущих ему тоже.

Увеличивать глубину памяти трансформера непросто, в основном из-за квадратичной вычислительной сложности механизма внимания, а также из-за дополнительных костов на хранение. Проблему вычислительной сложности решал Sparse Transformer от OpenAI, но он не решал проблему хранения, плюс его эффективная имплементация нетривиальна. Также был трансформер с адаптивным attention span (https://www.group-telegram.com/ru/gonzo_ML.com/99), но его вычисления вроде как не реализуются эффективно на текущем железе типа TPU (что впрочем противоречиво, потому что этот трансформер вроде как может быть обучен на довольно слабом железе за разумное время в отличие от других трансформеров, https://arxiv.org/pdf/1911.11423). В текущей работе авторы преследуют цель компактного хранения прошлого, желательно так чтобы это работало со стандартной простой dense линейной алгеброй.

В Compressive Transformer’е реализован двухуровневый механизм памяти. Первый уровень памяти (short-term) аналогичен памяти Transformer XL. Второй уровень (long-term) -- новый, в него память уходит из краткосрочной памяти, подвергаясь сжатию в процессе переноса. Механизм внимания смотрит на текущую последовательность + краткосрочную память + долгосрочную память.

Попутно с новым тратсформером авторы собрали и новый датасет для тестирования long-term dependencies. Это датасет из книг Проекта Гутенберг, называется PG-19 (книги до 1919 года, привет авторским правам). Датасет огромен, средняя длина последовательности сильно больше аналогов. Это круто.

Эксперименты как полагается показали, что новый трансформер лучше прежних, включая Transformer-XL (на мой взгляд важно также, что Adaptive Transformer также очень хорош и не особо сильно отстаёт). Разница больше заметна на новом датасете, а также на редких словах.

Также показали, что работает на звуке лучше Transformer-XL и даже не хуже WaveNet. А также делает IMPALA (штука из RL) лучше, если заменить им встроенный LSTM.

Предложенный механизм вполне ортогонален многим другим улучшениям трансформеров. Так что ждём новых комбинаций. И как полагается, теперь ждём новых BERT/XLNet/GPT-2/...



group-telegram.com/gonzo_ML/165
Create:
Last Update:

Compressive Transformers for Long-Range Sequence Modelling
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Статья: https://arxiv.org/abs/1911.05507

Ещё более продвинутый трансформер от DeepMind’а. По сути расширение Transformer-XL путём добавления долговременной сжатой памяти.

Transformer-XL был достижением в том смысле, что позволил работать с более длинными последовательностями, которые не влезают в attention span трансформера. Там это достигалось за счёт сохранения состояний от предыдущего attention span и таким образом рекурсивно и от предыдущих ему тоже.

Увеличивать глубину памяти трансформера непросто, в основном из-за квадратичной вычислительной сложности механизма внимания, а также из-за дополнительных костов на хранение. Проблему вычислительной сложности решал Sparse Transformer от OpenAI, но он не решал проблему хранения, плюс его эффективная имплементация нетривиальна. Также был трансформер с адаптивным attention span (https://www.group-telegram.com/ru/gonzo_ML.com/99), но его вычисления вроде как не реализуются эффективно на текущем железе типа TPU (что впрочем противоречиво, потому что этот трансформер вроде как может быть обучен на довольно слабом железе за разумное время в отличие от других трансформеров, https://arxiv.org/pdf/1911.11423). В текущей работе авторы преследуют цель компактного хранения прошлого, желательно так чтобы это работало со стандартной простой dense линейной алгеброй.

В Compressive Transformer’е реализован двухуровневый механизм памяти. Первый уровень памяти (short-term) аналогичен памяти Transformer XL. Второй уровень (long-term) -- новый, в него память уходит из краткосрочной памяти, подвергаясь сжатию в процессе переноса. Механизм внимания смотрит на текущую последовательность + краткосрочную память + долгосрочную память.

Попутно с новым тратсформером авторы собрали и новый датасет для тестирования long-term dependencies. Это датасет из книг Проекта Гутенберг, называется PG-19 (книги до 1919 года, привет авторским правам). Датасет огромен, средняя длина последовательности сильно больше аналогов. Это круто.

Эксперименты как полагается показали, что новый трансформер лучше прежних, включая Transformer-XL (на мой взгляд важно также, что Adaptive Transformer также очень хорош и не особо сильно отстаёт). Разница больше заметна на новом датасете, а также на редких словах.

Также показали, что работает на звуке лучше Transformer-XL и даже не хуже WaveNet. А также делает IMPALA (штука из RL) лучше, если заменить им встроенный LSTM.

Предложенный механизм вполне ортогонален многим другим улучшениям трансформеров. Так что ждём новых комбинаций. И как полагается, теперь ждём новых BERT/XLNet/GPT-2/...

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/165

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from ru


Telegram gonzo-обзоры ML статей
FROM American