The AdEMAMix Optimizer: Better, Faster, Older
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
group-telegram.com/rizzearch/551
Create:
Last Update:
Last Update:
The AdEMAMix Optimizer: Better, Faster, Older
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/aSujkomO5pFjd4519S3sTuk8BgwqqsKRAMs-SEfd_j4URyMxuFC2sL2aMV4aZaXv-MJ84RBnk7IdtJPS4QR-pxulNsZ5aj93mmoRvH714HVmiycy2Y-JmZKBMY4AkXWBtwQq54AlMVwyvV_tT4Kvfl6k8vkqbGghffMsma7fQCV-P_1D5Pp9NCqhvPxAY-Y6ZE7BCXSUP84loXFmOUeyReVIeq_Pt6ndNvtIbozq1rMbfm3LqrNnduGawYMauOQt2IYyB6EHRHXSS1ZmDE2kkezB-R2JiCJAViLCK8z--ZFRwstse3Z_OUzlEIPw47ejzG5C1JUMflac-kEbbEBWpQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/rdUcdc0nmZ-GjyoqhmGbn4rdHu-ILfDuUaqx7o15gzDTOn6IwtPtbuPmN0SoDj6bpiBz0X8idpC7S6AH9dL2yBI0X1OdiyzoTrCjDzE5MhXBCNPeC5MGEy_bY50QZtR2DNDgympcza--qm7l_xBGtlG8CAkY3FleGk186paBrPNLBuN1B6ZN6lnSRHA-gheEMoSdgSbi3vjJy3f2Ix7TXDQkvXsC1K2avcEK-UVoC80tvg8pe8WApG5OBryVLgD9SgIDTH6aQV_1xW0Qkt8TtkA2WJ9NlAgjmzn1elrGesY5A9uJdJYsVXGnfdui6fGyFEwRjgsI-imPKDEUqYdMAA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/SEDuntWixmsVWWbssNOHUrg6oZztP4et_vOkc5SCg--QGepkuTkMRftzfARl0m1tPIdkfrD2kQj9PVk4Fz-rNkt1vylGpcllWbygi9yz67QeZDFiDB7FJjHTaG9YKYY_B2xUvLsbkqRteEImAnk6yVYM19YjnIqwmA0tMgRPe4IA2oPoQqKguVKMvnFZFFiUt-CFL7f6s1hzo45p0Dy6nvkeXY3BxfM_X0p6Ex8xCbLi2WmGpZ_iiPqbFwguJKfifbj6Fh-Tmyxi6ne5JkBhOSWdv4gvbHe1o7d1YIW3i3uAgR2O-dcO2k9vSq4beuCLWCeIZNg8q1vrUYmjUSr0Sg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/ehe2u-EqGaoQQRkdy4X5cXn-3qYE8iY6p8tD1wOBWYm_BZBAjhza6Zfk4992JaaLSHNoWrVTSqYGvVlqfAec_6IDxlG0yajqEPobCL_HPlDrZBl8ZrnDdeTwVghCz34iS6EZaoFMghkxgUY14qiCW8NNmX-uZoQt4R-RG05FiFTTtlxkKfegor81Hk_1gUrjm83geT76GttT38Juk_Y9jTIWDFZ_Auhqy8RWgKi6HwtbCJ_1ByNUvJT3QJjlRmhJpwTjuCaGirPHrey-4cy4MZgyEh07ZcTv0ZQxbN8qktPbXl01yJYw2QVWjRUEGlq11bIKGRhT5-5tfxnfhK5biA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/GgZClytHyLi2OyXktG81dTGPsc2FzPgStiMJTIpR8QBwK9zm_1b7dbf8G9D8nA3M_AD7z-P5o2bxYi-US0U4uf8-Xeq0RqY08TbYhKVmj0lq_i-y4nIMcyFte0TpJlhj7p28xkBtK42rox7Uh366SvPREebgblqF8vzl01ESkrEk6CcNItNTf-yZ4xpWSR1-ANiMO9Uc3QbzQDqcsEsB7YpQ7BLZ7BplMOU_0w58CMJq5TkUAw3L8n5H0NPUjrFjUFbm7zXNBGrpX8CKhNRkaQhy7ul8LnC5eq3cd3njk3UcFBynYEn96qGnmdj8mBeoxGYDAasSNKDsqhzWPgQKGg.jpg)
Share with your friend now:
group-telegram.com/rizzearch/551