Telegram Group & Telegram Channel
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rizzearch/232
Create:
Last Update:

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Oh God, неужели наконец решили (холиварную) тему ограниченного контекста трансформеров - и получили бесконечный контекст при фиксированном компьюте брррррр

что же придумали авторы из гугла - давайте будем хранить в качестве памяти скользящее среднее (по сегментам) дот продакта между V и f(K), где f это какая-то нонлинеарити. затем такую память скармливаем с запросами (queries, Q) из нынешнего сегмента ⇒ получаем “аттеншн мапы” , которые потом суммируем взвешенного с обычным механизмом внимания ⇒ вот нам и бесконечный контекст, не так ли?

напоминает то, что придумали в TransformerXL, однако там история берется только по предыдущему сегменту, а не по всем, как тут. да и по сути компрессив мемори из инфини-аттеншна есть не что иное, как associative memory (которое мы упоминали здесь и здесь)

по факту это все выглядит как рнн со всеми ее недостатками (что вся история и память компрессится в один объект - в рнн в хидден стейт а тут в компрессив мемори) и при том без ее преимуществ, как бэкпроп во времени

к тому же и сами авторы отмечают, что их аттеншн по памяти происходит линейный - да, между нелинейными преобразованиями f(Q)f(K), но это не оч хорошо аппроксимирует софтмакс из стандартного аттна - а это сильно так бьет по перформансу на более сложных тасках (as far as I know)

коэффициент ЕМА, который соединяет аттеншн, полученный по предыдущей памяти, с аттеншном на данном сегменте (то есть классический) - обучаемый, но он никак не зависит от инпута - задается просто какой-то приор таким образом, ничем не лучше фиксированного гипера - его перебирать не надо руками или свипом, вот и вся разница

но если весь мой скепсис напрасен и это действительно работает - так только лучше 🙏

👀LINK

да, без лекций с индусами никуда

BY rizzearch







Share with your friend now:
group-telegram.com/rizzearch/232

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from ca


Telegram rizzearch
FROM American