Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
group-telegram.com/rizzearch/212
Create:
Last Update:
Last Update:
Linear Transformers with Learnable Kernel Functions are Better In-Context Models
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
возвращаясь к линейным аттеншнам (мы уже писали про классную статью об этом), наши ребята смогли улучшить базированную (based) идею, которая до этого считалась что-то типа классикой
итак - в линейном аттеншне тем или иным образом с feature map’ами стараются аппроксимировать оригинальный аттеншн, где есть возведение экспоненты в степень. Ну и based делал это через разложение в тейлора до второй степени. и было круто
все бы ничего - только экспонента на то и экспонента, что не парабола. откидываем серьезную часть того, что называется о малое (или что-то типо того я чет уже не помню), а это сильно влияет во время оптимизации - разные точки экстремума, манера возрастания/убывания и все такое
но авторы решили оч круто это - не изменили квадратичный кернел, а просто аргумент начали подавать туда другой - с обучаемым аффинным преобразованием (который выражен в виде леернормы, пушто до этого увидели благоприятность нормализации данных)
и ко всему прочему есть и код - и хф, и все-все
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/kl4OIWx5oKFnKtAoEA-j543LJ6dNo42j8b30vktRg1o3s6KONwz7ENcQwMhrWbWdlH1gikaWNZT5qs3zj9tCuGFpnljsOlSTaESj1O9V1kuxv3VJRGJ4CMF-sBC8DwHRyx_uLWObQouxtpzp6bEqljEfXEZ4_B-7WHseIS1v1KexHwZVTjxXBX49OQzlYT6haVxRVBi6YH1-NTIFTT9DadRBhpfW9yBt4lckcr3mxFGTQhXayoHEPn-Uv-EXwGtGneAoU0RUxI83BGDPsVjp6SaT-ZnxYtrBaeY-6oT06fQ2K42J1go_rQLDK4BzvoYGmixcRwuwMSuve1CmFLlqjw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/U98EU4oMXlojuDCdaAUYS8szT3V2FcsUp75sEZ4Zrd8mRLGH66mAgTHcOiJjsGfUJJXo3vqyRbMt1NlaekiCxrqyLWTvyVYeCgIXIXg4iNpx3X9IBohUCrB_NYpODLaQNgUfH1Nbd8KepImlvHmCaHN9K65zx-JW4a_MQ8mc76tpEJnd0lo52H7C1xo20vlyGoQQbP1iCSA57psI0RLzjWDQJUj_VAnOyNJqMu2Ss7Q0nGkx2OPVmcyKA_cZYK5m_R2WLe1Wfjc86DzEcx7sVimvL--vFVWA2dGsgzWEPzokKsqwesd1T7FYehfaCAeUZYfWbAQtkQvrUJSFT_ZqEA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UPj_L_I5yHkvtrKokpaJFR83n0jp2T_TF2RUCjzOP-pq5LWupdRKzyt-jK4TbPkR3xXF8Sp4sRDjnkRU8BQEusaNAFISj7UsyllMnWTeX1wKL7xLpP8YyTgsXt2YrcCLb6JOHjM_3sfcWuOMJeGv_Xr05_WiQxIbe8rbeGS3LSGQwVfxiW1ck2wS4ULEL1W8vy5zYOOZiG-SqGQUtydl5TELIXSQbcUw1dhJXnBHINX6P0gesbCeFj-QF6xmSPO_B1SjMCYyq1OH6zy1ulLio2PdFn1-Oi-oOCJcwTR0bMHoeHA6CZBy-2YkyVtrKAOcDVzLJbM3tE0ND7DUXTWGvg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/dGMc1NmF9cbNMdqcavzwsfxcgfuqvJU40jUtlIGJopWicATrZ0IIXTid_yENFQgJ3pI6IOXlNb7tO4rWIeEuJ2XDVW692rxsyVQe4JTxtp91UXviLsj-bLY3c7-HpJ7Q2ozkZk7_iaxHrEd608kHebJo5VAv11tiIJuUpUABrQ59y_UHNJYe-UgesYrBX2a4qjeFT7wxl4flDH89WwXt2vBnB14BIPbeHqAN9Qv0JR8DmhrFCJ1ufw4kZWD_Dta3anR2UPiulR3iKZqMLlfswPJloeHoeqvWOG6NerZQAta00xvxLutG8DwghscDP6_vglV2v_ZaXxZuByewwzYkLg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Tb7YASB2H-CD4HbDplAOWjw2ke_9hPLyr3dHkBjqSofWZs6etGhNHUqX0dVY2EPHGQL17theT-LaqX8A0I47DGRKZng4CngjNEm07Tx3u5bki6JrGdxXmOkAFUam8wxxevKFYapxH9B5kOOfhQC_suHT_TkWfk1WJh055oMZuDYmW07avHvNkCTaghKkwZjuE7wxl1DozM_pD_6hMjYUYTo_9DNKVZS2cu69_dYqY-A_vqueZewSMES26751oToEYt-wS7-iE3fCXR_msX08cvmenM2iVPG5-1w89G4B2mwicjWbTQwmF2BDPg7xl860yaGzXvJj_kq8myj9VMnvsQ.jpg)
Share with your friend now:
group-telegram.com/rizzearch/212