Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/rizzearch/-270-271-272-273-274-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
rizzearch | Telegram Webview: rizzearch/270 -
Telegram Group & Telegram Channel
Retentive Network: A Successor to Transformer for Large Language Models

тоже уже база, но хочу про нее рассказать

стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)

по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎

ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма

еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую

все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью

да и ко всему есть код, что приятно

но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки

👀LINK



group-telegram.com/rizzearch/270
Create:
Last Update:

Retentive Network: A Successor to Transformer for Large Language Models

тоже уже база, но хочу про нее рассказать

стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)

по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎

ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма

еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую

все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью

да и ко всему есть код, что приятно

но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки

👀LINK

BY rizzearch








Share with your friend now:
group-telegram.com/rizzearch/270

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Some privacy experts say Telegram is not secure enough But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from us


Telegram rizzearch
FROM American