Warning: file_put_contents(aCache/aDaily/post/rizzearch/-212-213-214-215-216-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
rizzearch | Telegram Webview: rizzearch/212 -
Telegram Group & Telegram Channel
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой

итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто

все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое

но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)

и ко всему прочему есть и код - и хф, и все-все

👀LINK



group-telegram.com/rizzearch/212
Create:
Last Update:

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой

итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто

все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое

но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)

и ко всему прочему есть и код - и хф, и все-все

👀LINK

BY rizzearch








Share with your friend now:
group-telegram.com/rizzearch/212

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." In 2018, Russia banned Telegram although it reversed the prohibition two years later.
from ms


Telegram rizzearch
FROM American