Retentive Network: A Successor to Transformer for Large Language Models
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
group-telegram.com/rizzearch/270
Create:
Last Update:
Last Update:
Retentive Network: A Successor to Transformer for Large Language Models
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/hLRAXKuZsU-rGO3qwy1unKZrJzhdfSGvbm2u4MPBibQPy8mwjccrnYuAD1GuKnsKBSVS7-nlRwiIWmjIVAqjB6yTRIk5J2pag3h7c_rA3hDMlCL2OiuGUSKslZvvs82wm-vYcOzzCjOzswgGMIMnLlBcnp7XhRwoYokfkaiqR_HatxdH5MbKU0dV6bM7HvynaLJC36hcJCMyQEtMhDgfNorLbfLekhAArgMBIBjTBrpPpB086NKfYwcjTMBK2BJXl6g99-O2UfDyXMUcPnonkmOTDitQeKXbTSWZmCMYBVIupTSayacxRXR1vlTkF8Dk9691wEsuiNk_R2Vk6Bpb8A.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/c_ilgwhfyYrO-xBAvVNLzgaBZ8mutTNUwwn6saNv9xZ2u4CTxmpPp4qfGCmCCl4AMKb9N-8nqfn6CBHEv13BMt2OX1RKUGUmNSNZTBCZ_PwIbTuLaG-0KSw31fP9dV3UaWuy4orVkVxauv_utT_I70DMQEmu_1dssN5VHVjFNowezusi6DTeFBvsdy0yhitVoRE4bKdC3QpbTa0x_2_dQy2jxX5HXsTAl5J-IP5r008MchyW0qKN13nPIhhZQ2lMPoIN9mzbyE0Ym72ZjH9HgsVo5iM5KgXQLcRKNbVxbGETL_ar79t8ZrfX4drXJwvL8n6SfleA4uvPMClJhkcvBg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/KaFUXQrcz9RhJ1WJF_NnJNv1hKqRGUob3kuaf8-9ItazCuKoNlVHvr4QJhlH1hc5jtQUb6DYhGW2eYHsCpFoHbaGqX3Hc28gYqS8SX6uw453T35ZXgHn92P-sygN26CvtB2afx2xL7mjpUW5E7r_RtpV5EqRRsVWyaQ2-am87okYBxNpHhVJnoysx-lNePOjbwDPgczkvJjVVNJXY0gtGScjCZIbXWoAxW17DV6BgjERS-jocGNBnw4Ep_CvV77pYyM0kAnBDsiSNbNNXk5Mf_g16e2himPGwaadCfdjdhPeriaLav12l1BTfcc8htsy7dRW50KC7c-XMuZZ29olsg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Xem7B7TKIN7auiZ8rJ5ArNYeCqd91tLw38Yo4C5Fi9BV3XPxF8gkhPQ_gLedusWGqd-cKoMzamhfohpkj1-rHFe6Yr0MYHANg7EogIfn3vLAH7Xp-IMzLb03nji__srUkLCVilkDuwkHLpa83Iwx5Xforhjl8K9YG04t3_jKtHsjPoslWDlOvloaOWtdosmt0nVVigWGul_RmZDFEf4UfDNjJl9UTQEdcWMfN8vSC78qv3QkQyy2BWv17Xii6VNj_X8eUOT5dY2RIqa9c9reRUfwl8rWDMRhKvrc8wikOgFC3vE-cG1Y_oYGmveJyiQ0Yxz4dRalYdmHbmODvBvRZQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/LepR_WfUsDYW-Jp_KCbkZAu131T_QpGDu1MmnJu55nIorKsb65CgxJTWnuDanZg0cxFTYA_uOiwBPEJBvz3Z2s7cGqHng7YiUAoqlsubDujn5-B7kKqPBjnUmkycWr24HFKFuWQnD_VF3n4VBgwiBRFLaaVl3rjghCyuSRivpnh83aBXRkdmxK-oyNan_CU2hpTAo7ViXO7BPZXUUwzv6yvouy7Nid7hJHlvMPB1oVOn_0ZQiNJHJXkyIW1NuZwq4iNPLqltL3VlT71Y66x0322CLcJ6EXj5RF7bNxL8Zew-5z6a9l-JDhkAwB90RiRXJElTsZa7XLaxl3LgxRnKYw.jpg)
Share with your friend now:
group-telegram.com/rizzearch/270