Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
group-telegram.com/rizzearch/212
Create:
Last Update:
Last Update:
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/aBVJJGaMj8M058BZnIX5OhAYrCk0xZWkvbf0rwnY9RrNae77vrxu5CYdGAdQWZ6FUkB85_bY9fPlBDNU709a-M2q1hWvkeqs3moEZrrFk25kqdPT87UB29a5yB62eDPtQhy6VoeNEan4RVNLEDP20DOHSg1EMcJqcwcmRXStu0d4HfYHKExeLDkr8lUYZjgYujeZddJVZay307JjPXnfFXD1r_ZSIxfJUpwr4vezNGCDnIIoVgIsC1KRZWFAyA5lBxLRxCTSDEQDSQLy9LLpL-MQkfS_Fd-LiMCxosTNFUVo4kxdLJfWTNGlCa2Ka4FLkbs1pVkgMqomb0Rp1SUluQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/s09fOiB3-McqThhSZO13EAPq1USCx3YGll31Xp6M-UR99gRSEd1OwGppR9QkvDkBfJTooCbAnpO3O4g7VhNXB4mY4g9RiJYKML3UcrdqfkujPv71MSyzefG7tvVHA1d73D_FjzlrlWj0b2JRjVdjQFmGmSF_hknECJXI7S7BX0Xe4OA1t0ti8LF7gMMT0ICPVS0LCm_6ptmQZ1-jcQQ6GD_7zqHRTgC4EIxCkm_Ecl2BF_jBIsa6KcyUUeiRqJVBPpBfuGNc7fF8-fd7f5RVWNGeWmqoAC9gxQd2HnqCHdUeak2Fwe1oCXiXfS8h6VCsFX5MiDzDDyL7a8PFY281rA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/EcFq8vFwqrYAxWzdDxqqISbNNRlQs6cIE5IRXrsRTbLL6HYnbGkzZECeM9W90-TH4vj7VURcWBZbL8QpymQUmP-XtlJhivnbznkV_ZhRh3onj-mwrtkFZEFfbzAi7opmPVQkLCxisXjeENRQK3l2ss-_sAMitGeG83wkM_QVMm9JLkVU4sjaabnyebvJPxPe1zOsIW_1VC3DFBCwLbHG5IhdlYGEDYQdNeguH2o1goiOCqJp3AjFPQetyiY92DjKq2QPSyMRA1SGJ-44p4GviIKYwT3A3R9Q7qrkk15-xGq4hASMenxBYibTs8z-6U1FPresMMeMRxKBzMKPxWzZzw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/TnxJIPVpN-esl5ID4OKf_ScURjmIZc3LaJNWLR4cQ_vH2CV6oUnptwch3M5oPzjUMk5j709nLDmiLgE3XIART_wyThpiCzMPgnNIvn-EHZiBznuu1HlG5G8i6h-GOn8h7w_WxQ4h56SAkLFsKNNDMNejmL9hRaHaEmoiD8OscG17AIqd_UpmRFIG_DmeNIu6ktNNg83x9N20IDnUHoJm4NnYjYWBRt76-kCrJZsSsvvAc2ZH5L46_KC4FM0zrDPx32565Fhh0PnXF6lDV5yH8Fz-QMw9jK1w6uKB2xIWfbExx4oOsAJ0JumqGxqj_TzBZQu0XuOaDg0w_mW0kVAJiQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/N9OqaxxrY3mmqaSYLf2PFI-NSBimrgbXfvyA_ZET4qFEO2oM7jOaqdFtxNWa0vRQxzOJv9-EP7SWZC4S92VTExdxNTuOLX752_wanE5W6oNzyC5cHhiMlKKAdCMxWKesq3IMTjRwEgWKmvTldTOJ0XNmZDuUdtzXua2IpHiZS2Yp1BShEn8klS9ZbMSZIHf3RLl3pGsNCB9fivJ5Q8-4b6mpUs2SaFG0eHMcAe3DTQQWL4JPtWaU9VHcYNJSF7Z7Nmh-eDR08_OZA4niNtjl9Co8Fr6Vqk77fgSbu57NO8dZF1r7QbAKNsjz4-m8pOorMnUzW5q1q_0Q4UnLqqKu2w.jpg)
Share with your friend now:
group-telegram.com/rizzearch/212