Retentive Network: A Successor to Transformer for Large Language Models
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
group-telegram.com/rizzearch/270
Create:
Last Update:
Last Update:
Retentive Network: A Successor to Transformer for Large Language Models
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/jn_LUC6qrYpWeWO2fScpruJIBH6T3cyr0Umjr_Opu_xCt9a6Mt-7OyJD6CWzo-TUAZC73cC5xR1xsk-Ey4hoQlPtnJ12taMoUfYF-OhzQyeAX3mXHa6x_HbyFv-a7p_yyUu2o25GVnt9j6wNoQMZm4Bgv8jEsSSvQhbIjvTIzJEYpcEbX96C0tWPy4FZnBII8TdD16ajK0M7T1udjANN8tYMCpDqt_SJhC1LDKJGCwAdwfDDhars3P5kwEkh3XOyt2fFUgelULx0JT8NdZx_DF3-nQ8MZW4h0yn5Jzq5WgIkMxX6oFHuVGND03gFSZ0fbK_t3W5m85DFSNtAiQJPhg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/MsU2-gkxg7hPts6GmlSmrL94Bevq7AiwhmtG03KOxDCN1jYeiJjsE9sniBzR66_19juzPjLIu2HTxksX-hNEGS5QZ4yp7m3-jZrpVlUmBDXE18wZ1W9mWSapcG2LKcicxo6G6aijkn_zmMydFYdnKhtdRSrl69DaXC8ytkjnBLtedVNWD6yg7pdyxRViy48bni_sV_5yfvRIFneojPxvHqyfTVuoHq5ym9J5TK2MnckwyVEzrFUNIoqZxn9_r7THFiwPDkzlgPNHksbaVkW3DX3gw2yLG26hxj5mSkYP0zqSArdRiSW5WXauvoI8e4knuLrsdvlz6G3eF2VW0HphPg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/TQZSiPHLYV9pJtb7ZuS2eph4QpbOko8tsnzl2ofEI1yVBqPAZiRGjUZ0lPDlHoSgQr0HpVEC4O7gVsxaNCl1WiVDB_CyTqA6cT2ykpUvdPiGunR7s3mVVrvjT_ewqbcjD9967WYrkUADKxdA9tLcuqnbLxeX64MF7c7gZGgy3I04TDHOTv7MURl7o0SengVNlQzFMy7ysLYQaUdCgEGe5f6D7ktso-BR9PYsWeajAxv0dLK-l7GHskaBfbHzlRsxO0_33GIxTLTWy1k7Ev4M_SfOT69_yEleGLv-y8N9ZsMwbvEQnuY1scbhPmykB2qRnEbk4zCG4aEkbHQz4bQozg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/bQQbs1XFq_5lWUP2ZkN_lUJ3QO1vBSJZ7G6060RWGKs71qQP1WQZlZpD1EP3ZJUpDaQw3RXurBxwhrd8xhg5Sicxs29iX9aJjGL7jb42CLaifV80Q6dCIAxebs6rEtupCgokBCJOEbvA9VJ2HzclTHWpIc5MAWODbCe_vvgm77-IjGlwvlEyG0zBOBvfp6K3RKvJty3SjkXvuZuuPlQe2XGtR12JGIJWJgEoeAPRklf6-FMF0KAQ5ysm1tcD_dDGQL4IT_YkZa-mc6aCT9qEHA9C-VFa9eDqHzJ4foYJCiGhjPQhzqlabdx6ELffZfQFWx9hhSXTG06PY7rrdf9FQg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/U47gBikguyIg-S0cIhHQx1aGDmAQQi4WCQsVlpe9mE2yddwPBcz5DVpYQkEpHidCopnWQ1N1i3tLZByoNqbdBExDwT3szCKPjzniaIj8FZFLLxVQSg2B8OsBBGVPJm7TYyijBwHGl9d-FqGKrCBZ0Rn4V7fN3C8XceYhO0Oj5s5pCGd64bHt4VpZ_eJGr_-HX1NYBUWxzTif4ZgYvRYSezUbmFePAYpT0zOhkwVA_Vsk8uy-Y1wJ5bnTX1FCfkcIgyUEdEhD2QcMJE6zXNAqjeMEf4DxQERGID1SJXfIAXLvUNMw5VGCyW4PFoqlfhFSGKYagQ9VK4qghzg_bWaDUw.jpg)
Share with your friend now:
group-telegram.com/rizzearch/270