The AdEMAMix Optimizer: Better, Faster, Older
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
group-telegram.com/rizzearch/551
Create:
Last Update:
Last Update:
The AdEMAMix Optimizer: Better, Faster, Older
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/KNa0-vGbvkUNvtQcuo4rK5FV03julE-C6xKZno4okR2BhNYrDIVGGvRttWM-fiUlGeQryE2b7mALqhdAo2Ei_kBwuUSZ1H1bdVJM50L50VnMVWmjDB18vEub6pltnv1uhEHFjkhHV0cjSbpvag1-Y6K_2WxfjLxBTfxkbUQN7ArlwAA0yhiUfpXZF6JY7QKlJenL_-0dc_x6g-WEucFNRliUNISsOmL9IRisD-z_CaLQnxIoXeK8drRBen8VImXc8dIXHKZD1_ynWvIfhHi2BDFRDp3CxcANT7A2IqkEUDonM9mfYpZWPMLD7Boa7JEAVNqi43ARJLoZ2-yZW2HVig.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/DQwt2S2ZVbapJAu83V_gIFH3XxQcIlVCU2J5pH9hKBNE35sLLUt2LydvQBg2_SNK7Qb2VJxub8ZBjbUShz96btlkzwO-k8KATIzs_ZZhBZGKDGqF227nB7EELqKyK_pLkDd30HrKVFFwdNznn_f9VrhOnXcB5jPHLaiwinOFg4CiLmNqNHQGHTN46Nz9jC6oY-eFsXE_oK_SKGMc5yKqfIcaDE-3b3yxjB8ln1IhQryT3lFBhf7mjPQCP8SzIu9OOTV7ByuGZ8E-Syheb2J4uKDoYMa7u3tc830XeQjkMCI2yXHjqjMcWCpR5CctO9ybsCgdWA9FDPKwmNJS1Ykgpw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/ZOxw00YqFTzN6OFcm6CeKb59TyvNBp0KCG3nTBYE5gGfTlyP2IDTucT46CLf1LNOyaWY-Sk1rfkfSzWwDQxuECMxGripurvKOyOqFrBRoNPOGvtf6lX7dxcR09B4zzPJF5qdYwegFRAf9jFR4pifbXmMMNh16VQb3-_oo_H_JjP-G5X0G3kfc5HIfncfnBoe2atr92LIr8k_nrZMuW78EtX8owyqb6Tn41bcdVlBrt16XHHRNJiCzBkQrJJxaGV5-ZJJ0tr-LgBTNuTCvkp11iiLr2xofnlfJnJroW95knfJtTsQSdnBlqt4ElGfqLZ9SSrhopk5hVqDudhz98TEiA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/daJ3ZckenVbnDXlf1K8tWMsNbss0dUSDXHgvru8FUnbC4SsWwkGoPfkxf3qTWHMWUdN5EazU1i2OU9J53C15DTXKSvANLDmZ2zVoWe1nWntDhNl4btzAB5y29xSYLHtECSoK-kz8xG4jEfUHQoZPEhupMzVwNHQbQfwdI8n9Q2V_h2UY1gB5wJAfkJLFZxK4T458DUfVF_UG7kLScmWxSPA1Y8PmMnoli-LIDB_wfRihT-b6zYDbN_uwZ3WASSTcn5L2IbdOr4GGi7BFKyp15oOy0UnAaw-_49LaHahv_m-ikWg5ktnjUXT_syOO9VJ24Z32r7L4KBYT7QdMvpbnfA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UdL5VCdVjBeSnKm9oApR8KXLgbKcBI8Dyouh5K4QCQkMBv_KHD_IGF1A3ZWu1rw7f6fWYN1opMXXJcSO38hWpHr7oVlqwN_9oj1TIygJy2m3kiLB-EBnHfpKjoyTlu3EYopPxK3ZFksp8dkLOEDu-HHpCV_xpcWPDc7I_T1aQCxJvhZq0kpYsQgCRv0tn6qJ-xOQoYDqLWJJKSZg3HlGkoVVqk88_VE9WX_GL7fPDqYmb6z6Ss3Xjqv8pj4RK3ldIJcEBY2r-DUZA_UbSESZhwK42nzBfLNsFOrJ_kyj0pXJgGAkcSHQp14MNg-rd1G9iF4_ztt6q7IOwWX6MlYtOg.jpg)
Share with your friend now:
group-telegram.com/rizzearch/551