The AdEMAMix Optimizer: Better, Faster, Older
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
group-telegram.com/rizzearch/551
Create:
Last Update:
Last Update:
The AdEMAMix Optimizer: Better, Faster, Older
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
периодически появляются новые оптимизаторы, которые не выглядят полной дичью и что-то да могут
вот тут от эпл возможно как раз такое: они нам напоминают, что в адаме первая бета интуитивно отвечает за аккумуляцию предыдущих градиентов. ну это не только интуитивно, а и математически так, но не суть (например, при beta=0.9 половина веса при апдейте падает на 6 предыдущих градиентов, при beta=0.9999 это число уже становится 6930)
но есть нюанс - хорошо, что помним про предыдущие давние градиенты и накапливаем момент, только желательно еще хорошо чувствовать, что происходит с недавними градиентами и недавним состоянием системы, математически выражаясь. и одновременно выдерживать эти 2 момента, как оказывается по экспериментам авторов, трудно для адама и адамв
потому авторы и добавляют доп момент в числителе, который просто еще один ЕМА градиентов (при том он еще не скейлится на бету как другие моменты для пущей аккумуляции) ⇒ получаем AdEMAMix
с ним батчи забываются намного медленее, при том батчи в недавнем прошлом продолжают влиять на лосс довольно сильно, а значит и сходимость должна быть быстрее. вроде идея норм, но так хорошо она не работает в начале трейна из-за высокой степени нестабильности ⇒ добавляют еще прикольные шедулеры под гиперы нового момента, чтобы с этим справиться
смущает разве что очень маленький скейл моделек, максимальный размер - 1.3B. что будет происходить на 7б хотя бы уже непонятно (взять хотя бы тот факт, что придется менять гиперы под этот новый момент, а не ставить его равным привычным значениям другого параметра с другим смыслом)
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/a8lpW6ZzuU29z32to68RF6C3D4MiBB1Hw7wMzJFv8qK40NV5Mb-TRuzpFuD7LVlF08fu0FkQdy3d-7LL3UDxUCoTUOEtz-6g02cgb-eNYiYRtmXBb_gKZRYh2f0t7ckVxe2ftT5a92ktHgXCTcgA20zvMLouBBZBJDNmLmTLhn-auZye2p6LqtHEK-PIsP0UKfWtCpUhbXUwVfu19lCsvWWAgiDaai2be4hj7ajTYuVIkwZrgqPt467kYTmsso9NuI_7L1ht12eol7nwctg47YhNNbaZgAqDAfASq_06bjlGzOUs8BjLYWZjI7MINT16XRwgIZOi_-r_AW3s7z_Lig.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/D0mSpcizCfMJm-mkJf1tDRvioObn8rhewakdxvd-XjmUcTSlBY7_aOSuumGhotMSzL1mI3e1ufrY8fMQ4ogazrK_vWRucDrpxTv2LIpbZ92a45gLBPZ2z8FtjstGIT0NH6xbtk7woj3LboQG3IDujlNREU-FWdgiLcAb5JxzkW59DCl_F6vFPnt3q4qYEhdt52aWTOqKeg6pBrrXWjLaCtMCdGZ3XGUlMaELKGd76Ta45nU7LdIqeazRqpbS4LZ-tVq_DSMN_KwU9t-7hqk7DuZlkMAOuIOj8ueKI8jF-NUecLjZzPU-UWS27Ykcyq5Oziq-EpDzO9j0IXwzH80Jhg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/bWjw7Tnrrgo4uPoROBs89rgHh8eL_2NP4NvPa1tBoSfVgnVakiKWtS7XB2kzBDAn0tlxOPgV3IA8zBstRKgd06RHbeEzeDjMg4DtWXrRug2Rpj2chkrAWcxHCdYAImoh6QacU9hKoLAbDPLGA7gkt3y0YFE2OOv2OdJbr1T-DrGSt1HI8OgQucHSQMwulE-RgOXmovbgSlo430bSVK6HOkgHShNKfxMzpbyiSHWXQHHp0z8LkhaTV309VNbYqVGB1f9Mi-74jApYHPPmq8wa9MpNipXTAdDlb_4uTlFbAcWazFsrYN3Hc4DNx7y7vGSewrXWjBeBgtkrglPQcXN2Hw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WX4UMH-g52ZXSso9wH8gUcsc_5MeXdJ4i55_XWN3AwSAfKebOQPF4bTJvWy34lkziRFWw3pwqyH-VPxNdz_JdbKl5kKFW38jeiFbzh0PsPAzbc90yEkbcWuYmifFO2cfZ3WDuJbnBwVlWtixJlU8h1PqGvFKazZjrJngGAgqObiTsizhpghoLwvS-66NRy2r70YC7DUsv8G-MnR4EMUhEebL4KjqSYCE5Wwuxn1CKc6wHxoOw3zJoYQdVn9hgMi7JscbZKGTM2EpMfmokDYnzVAXdNLxIAcFRMc_K4hMO5G63vG0cslJ6xj9MG27tKhmOYuFQguh7HCqH6HTcrqJRA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Bc7mfZlVmvmf_3xRdmUcJAP_38_e21IqJLoL2_yVkGxk8V1_IBS7enuI8dYOxiGLBgeLwJwyNew7Pfvhi9bhtXN9j5QY90REUg5NxHszShvaD3SQdose6u-cz-1lNQWFBa8kmjW5y1fRHhRekAcpyAgznfuTwJabmZoeq9YJJmz2rfrd3BR4Ioq9ZvCyn6swW-rUo8jEiTiskz3ry7Oglx89eWb07wfgBTCjHJtBG4FjuIsmxV7B1u-xKsLn7LYnd6eyBiGQYDTv2i7CL4J2GM3tZl_VOVs-QZjT1xR1wVvBt5-Cs5RkuUJvvy02gElawo1RN3ZX02oB4QEe-4FCZw.jpg)
Share with your friend now:
group-telegram.com/rizzearch/551