Telegram Group & Telegram Channel
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rizzearch/232
Create:
Last Update:

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда

BY rizzearch







Share with your friend now:
group-telegram.com/rizzearch/232

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from ua


Telegram rizzearch
FROM American