Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
group-telegram.com/rizzearch/212
Create:
Last Update:
Last Update:
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/kfSCalAylnUDS537Mvnn-t9k7hodZD_bgnqfXeOF5qc8qxRtpp0rRVftvpipbSVILytM2QJSOeilKR19IeFY37hY-Di-SQzoUU-16MXqIxWgUnjcEVLidByhgj-qHHALu6Ku0KdW2ILDPU90daZI5lIwwB7n-was55rxaOY_ZYBCkGxQ0ZQ_yOro1mv70QVf_S8VkhLvIdn8O_lhFbghdKa884UPFXRqy2QfWqWnr2D8xbXVQsBIRt85KJiDNv0KUV5FeeL8FGVclgOCD3GxO34t-satUtGv1OR4DIVMpLMUK1sOf162oLGMv0_MstEbytpab65QpPOnvhLNq2KA0Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/GkFWAD7yRufBwn29S4bKhr5XoKRmQjnc826mDytM0beoVRHZzgIlSS7vqVkZWWPEUxeMgmUeKNAaHEYPdMx0HAf-gE9tlzxG8btJWoGtYXFvTK6x1GcuJw6W9cEV3qH7FQsfErWMUyH4G1oW4ar_PWZgcXutFZpMaTGIU1JBauSg6HuJ133uXIiqpVfeIq6xRiaLy4T515XR1rEKrk3JITs2CiDe8ZgW_k74kd-fZdBFxPcjDb4w8pkAi9FATjaTqvt_ZRcCAnWUhNa3nWozr0JodTfaojeJzKvj7TXS7jUEtxs2pwUW1S4lG3W_fSkqk8qeZpfaJts2z7EkSpJAXg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WvriLqF-v9aJtuEzw7ws_L5UfrRL5UkvEPfUdAkuSK11ZSVwVfzoxFZF6jkEZKwb6nuNO2wmKy7QCbzgrVgJYtEHQ5KKCsyuZ1kJY8L3GRYkIvnJx3wNLqfO8bCQPdRQ-3yQDORCcf4DeT6FybEH05DddmBij9YB4_HnJQNQbegkLXLFzQdzIV-CPty6t_9OjGzbNVy7gVG5R_kpGjbXw1HB0Ql6jbqSxaoDY3w0ULBJEQRRVxtZHOJIs9yutqJc5_-QRf707tJgEeIY4qmkoLKXjjaASL46fvnaoi2iicBZf1IXbBCVrwjvobdSeL5ml68wC283K4LIvzhnoCd9xQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/m6Y_qriVhlwuhpnJw-bTtlMVBb5XecNTFPsbHb8aDaH8Oc8ZsFkWS81qDLlG26sBzJxvJjPsYGRSC-4P6pudLAUypuesU9hsuqFlLupQOwexTG2jebsyu3ymb_PNg7C0vvZNWK4snUTp_ZzNVnoVat3LCBersswuF4Qhg9iyPzNs2u9AW3QEm_S3q99r0zW_amNnOFa3DaWg1OZvswqQ2HsT6c9llnPUoABnBsYSuVDcQCFqg8rZZRvfjYzbK_hPk6G9jzKnYDsHCkq1Krw9a8UgdpsPLcjno9Rp2Yn2-99XNrA2KXmvAYeAe0FIxrwRpwSXASqB4TA4x2f0zykYgA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/kJKoT0idWFKmOU4v7F7vIO3BzU4u5aPN0hsMRq0eN-J2Ogkm5GAhVicAHjF2ODvLiNZ6UwiFNchQdhfA_SE5DjQz_rja0ohtpmb-Zel9oaIlVXVxIomgTswONDRdv6FA8Ht4xlzlhwEK5-VOiOgzvIKxy66AVm0L9h3PPbN5Lwg7D3-vaHX6NONK2Aa2khL8XmvBRVzt0ixJfVo5XkOX6UJsNnoIfalhFcg_VZlO3eVmgEej_lZZm51uZFxnRY2HmeuaKScHrlHj_zO6qpsLzpnOhi-vDX0Uj0HfIVQz30Kqpmix7t7_MD4SlNekMuIUBLJoQgEr7ny16v3HT5eLDQ.jpg)
Share with your friend now:
group-telegram.com/rizzearch/212