Warning: file_put_contents(aCache/aDaily/post/rizzearch/-212-213-214-215-216-): Failed to open stream: No space left on device in /var/www/group-telegram/post.php on line 50
rizzearch | Telegram Webview: rizzearch/212 -
Telegram Group & Telegram Channel
Linear Transformers with Learnable Kernel Functions are Better In-Context Models

возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой

итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто

все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое

но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)

и ко всему прочему есть и код - и хф, и все-все

👀LINK



group-telegram.com/rizzearch/212
Create:
Last Update:

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой

итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто

все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое

но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)

и ко всему прочему есть и код - и хф, и все-все

👀LINK

BY rizzearch








Share with your friend now:
group-telegram.com/rizzearch/212

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Despite Telegram's origins, its approach to users' security has privacy advocates worried. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from ar


Telegram rizzearch
FROM American