Notice: file_put_contents(): Write of 3690 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 11882 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
gonzo-обзоры ML статей | Telegram Webview: gonzo_ML/165 -
Telegram Group & Telegram Channel
Compressive Transformers for Long-Range Sequence Modelling
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Статья: https://arxiv.org/abs/1911.05507

Ещё более продвинутый трансформер от DeepMind’а. По сути расширение Transformer-XL путём добавления долговременной сжатой памяти.

Transformer-XL был достижением в том смысле, что позволил работать с более длинными последовательностями, которые не влезают в attention span трансформера. Там это достигалось за счёт сохранения состояний от предыдущего attention span и таким образом рекурсивно и от предыдущих ему тоже.

Увеличивать глубину памяти трансформера непросто, в основном из-за квадратичной вычислительной сложности механизма внимания, а также из-за дополнительных костов на хранение. Проблему вычислительной сложности решал Sparse Transformer от OpenAI, но он не решал проблему хранения, плюс его эффективная имплементация нетривиальна. Также был трансформер с адаптивным attention span (https://www.group-telegram.com/nl/gonzo_ML.com/99), но его вычисления вроде как не реализуются эффективно на текущем железе типа TPU (что впрочем противоречиво, потому что этот трансформер вроде как может быть обучен на довольно слабом железе за разумное время в отличие от других трансформеров, https://arxiv.org/pdf/1911.11423). В текущей работе авторы преследуют цель компактного хранения прошлого, желательно так чтобы это работало со стандартной простой dense линейной алгеброй.

В Compressive Transformer’е реализован двухуровневый механизм памяти. Первый уровень памяти (short-term) аналогичен памяти Transformer XL. Второй уровень (long-term) -- новый, в него память уходит из краткосрочной памяти, подвергаясь сжатию в процессе переноса. Механизм внимания смотрит на текущую последовательность + краткосрочную память + долгосрочную память.

Попутно с новым тратсформером авторы собрали и новый датасет для тестирования long-term dependencies. Это датасет из книг Проекта Гутенберг, называется PG-19 (книги до 1919 года, привет авторским правам). Датасет огромен, средняя длина последовательности сильно больше аналогов. Это круто.

Эксперименты как полагается показали, что новый трансформер лучше прежних, включая Transformer-XL (на мой взгляд важно также, что Adaptive Transformer также очень хорош и не особо сильно отстаёт). Разница больше заметна на новом датасете, а также на редких словах.

Также показали, что работает на звуке лучше Transformer-XL и даже не хуже WaveNet. А также делает IMPALA (штука из RL) лучше, если заменить им встроенный LSTM.

Предложенный механизм вполне ортогонален многим другим улучшениям трансформеров. Так что ждём новых комбинаций. И как полагается, теперь ждём новых BERT/XLNet/GPT-2/...



group-telegram.com/gonzo_ML/165
Create:
Last Update:

Compressive Transformers for Long-Range Sequence Modelling
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap
Статья: https://arxiv.org/abs/1911.05507

Ещё более продвинутый трансформер от DeepMind’а. По сути расширение Transformer-XL путём добавления долговременной сжатой памяти.

Transformer-XL был достижением в том смысле, что позволил работать с более длинными последовательностями, которые не влезают в attention span трансформера. Там это достигалось за счёт сохранения состояний от предыдущего attention span и таким образом рекурсивно и от предыдущих ему тоже.

Увеличивать глубину памяти трансформера непросто, в основном из-за квадратичной вычислительной сложности механизма внимания, а также из-за дополнительных костов на хранение. Проблему вычислительной сложности решал Sparse Transformer от OpenAI, но он не решал проблему хранения, плюс его эффективная имплементация нетривиальна. Также был трансформер с адаптивным attention span (https://www.group-telegram.com/nl/gonzo_ML.com/99), но его вычисления вроде как не реализуются эффективно на текущем железе типа TPU (что впрочем противоречиво, потому что этот трансформер вроде как может быть обучен на довольно слабом железе за разумное время в отличие от других трансформеров, https://arxiv.org/pdf/1911.11423). В текущей работе авторы преследуют цель компактного хранения прошлого, желательно так чтобы это работало со стандартной простой dense линейной алгеброй.

В Compressive Transformer’е реализован двухуровневый механизм памяти. Первый уровень памяти (short-term) аналогичен памяти Transformer XL. Второй уровень (long-term) -- новый, в него память уходит из краткосрочной памяти, подвергаясь сжатию в процессе переноса. Механизм внимания смотрит на текущую последовательность + краткосрочную память + долгосрочную память.

Попутно с новым тратсформером авторы собрали и новый датасет для тестирования long-term dependencies. Это датасет из книг Проекта Гутенберг, называется PG-19 (книги до 1919 года, привет авторским правам). Датасет огромен, средняя длина последовательности сильно больше аналогов. Это круто.

Эксперименты как полагается показали, что новый трансформер лучше прежних, включая Transformer-XL (на мой взгляд важно также, что Adaptive Transformer также очень хорош и не особо сильно отстаёт). Разница больше заметна на новом датасете, а также на редких словах.

Также показали, что работает на звуке лучше Transformer-XL и даже не хуже WaveNet. А также делает IMPALA (штука из RL) лучше, если заменить им встроенный LSTM.

Предложенный механизм вполне ортогонален многим другим улучшениям трансформеров. Так что ждём новых комбинаций. И как полагается, теперь ждём новых BERT/XLNet/GPT-2/...

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/165

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look.
from nl


Telegram gonzo-обзоры ML статей
FROM American