Retentive Network: A Successor to Transformer for Large Language Models
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
group-telegram.com/rizzearch/270
Create:
Last Update:
Last Update:
Retentive Network: A Successor to Transformer for Large Language Models
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
тоже уже база, но хочу про нее рассказать
стейт спейс модели показали возможность параллелизации обучения при константной стоимости инференса и меньшим количеством памяти, вот и авторы из майкрософта и Tsinghua не отстают, сделали RetNet (кстати мы его уже упоминали здесь)
по канонам джордана белфорта, продают абсолютно уникальную идею, которая делает “невозможный треугольник” возможным (сомнительно ну окэй) 😎 😎 😎 😎
ну а идея на самом деле неплохая - оставляют трансформерные понятия Q K V (на матрицы комплексных эйгенвекторов или чего-то там можно забить потому что они все равно уходят при перемножении), обрабатывают их как в линейном аттеншне с наложением каузальной маски, которая в себя включает еще и позиционное кодирование которое работает backwards с гипером гамма
еще расширяют эту идею на MSR (Multi-Scale Retention, a.k.a Multi-Head Attention) и подают разным головам разные гаммы ⇒ головы теперь не только по-разному могут производить ретеншн (аттеншн) в плане обработки контекста, но еще и по-разному обрабатывать временную составляющую
все это спокойно параллелится на трейне как и обычный трансформер, а на инференсе легко можно перейти в рекурсивную форму. также авторы добавили имплементацию в chunkwise форме как трейдофф между реккурентностью и параллельностью
да и ко всему есть код, что приятно
но есть непонятка в табличке - у RWKV пишут, что нет параллелизации во время трейна, когда она есть + забавно выглядит как они галочками расставили перформанс но это оки
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/dcDwme7Cm3vUzCv-nojsLMQDi4HsF8nUvt4AZvlmySLL0kNaHeMetsyA0KLhBsQd6zRcJuohY2FaxfO24uu1NMeu0FNj9Pq-fb-s5YoDoUxUraQh85aEurmxzCcBsnnCVJlzTwprNK-8XflB8a5hOYjASz_c9clWLh4pMCSK1I25CYkWX4zzl8KJvJyfUVr2FfhEy7pC1ESlVW193ZMUcZu2e8k764DiVHeefQJGlso_1-nXCOO6fF11YbfLq5QRQRL1CBo4FE-HsWEzvQB7E94fRPuzkErDA44e6tn83-auc6eUMk-4MoTBC7m9hu1fg-WUS-HSOnfV_nUpk6aanA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Cg5qc9_phjmE_BFrGXU8R8CcyszN0JgXfp6F7s5WQaM5MylvYb_2Z1ycTKHNzrN3qI9TeQiHOZm5H_PbLg6O0Qj59G5VNG3X-vp4fMQ5qbMJaNMyo_KO9I-JCBmuL0H7Wd6wCbX0rBmkZ1EgrBjEDpdeAyd3pvM506jIpcKr1CZGdYTF2WPDw8QeNPTIede6XnprXh6k_RQT2cVQNTeafFa4D5UQHJs02at5rk4w79lXrg4n8nW9Ck34IzB1zBOHiH7pJXo25GlXGg0Cdzxn9NRRbjOhKHatsy2B10yGjBPRnY6pGoCSu0dGPQrWYSOROXOadrKPg7ECoCMEg1XOsQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/B2FIW9w9p9nMrlNK3nkuCUyRMUgZUwhnIBlIPsDjBb1cy8wLfZZbjjYEQeCNa3l1Xf_YzWkzd2HIEHXxma1PzCOREPI0mCS-SQMCYdq6SH-q9Lkxe1iKhNg4xmDU4MOYoNyUC5TNbgrMjd8_pdTXF_eeFAVeTf8Y5LxH83AoCjhjAX_VEikkPT7srrlax05E8eE5Q9eY4jaIVdQCWQRY8N1hFQzrmPdIOjKwZ63FSjYT35L8engqoH_BX5iEDQ_R2x38OPFjOtixTAq4jht7czPyEq5dvHn72A1-D4Xq40i20zjxc4WDNqxLp5AUJFiyYZ7QLU0eIqhXYXbHA2ZOTQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UNz2ei7GcYDdKoEEP4R2CswJdI1c8nrpXdfN70dTglfjCVCbZRcwyerDDQmeZF-hQB9felFvqvEossv2ZKOP0N5ro3X-2-JLXiaGyZNwCdSQGNPEer68Ju0nil-h85NwetxDEsudfILXayPQFmd8Pwt-3Ow6dfKlLMQooRq_3BGaqabeZTKXexSuS3ZZTSWNjRVyPnY5haIhXnqUKOaB6TPzpM4g9PxHzfF5mujbECEfPTif0nIC7_b5jcHbbBc1Bts1iAq042w72dyArM42cDEwM25J6B4ufvrICVUh4O4avENNqBPCL17nv9r4HbSIoyyXebYyyGEtdtmhUiAZCQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/EDA5DWW1cBXfgusTcLZm1lJbM3LfEpsuTkysw8WHSd4XgUbz2GuASdtoyQCl8QiLw_websjQP3UIOa7ZJpJehUUkRhKyG72WgpnkXpV0ztksKxuI8D2ZMx2XuYT9w-P4jrLwR1azVyB0T1hbdOTu-4YnH740oJJ70K_anGTwqbI81UOjhofSpbHH0CrUS0Ei20CN_n8bhLajcC8jYlAqWSGChFP0s3Xg3ElcGxajfmBE712c98VQCLVRziVCXZ_sjOyOb6S53i9Zh8WMM2wS3je4N9ei-FDy3mugBZKVExYtC4r6gzYLRYfgpklvhKb5TA_GGoqNJlaFTe8z3mMnHg.jpg)
Share with your friend now:
group-telegram.com/rizzearch/270