Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/71
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/sy_fPaIygL2-hBIr1x6xLbvghlKVzzgNQ5aMTF2H4X3r6PHzcea3rowIqgjyMKBnuiSdjj-DnRTFp-EKZHDGU5BB2do4KXc1kXEkXcg6la3qRGVgiPh4v0EQrEfCzvTOSmLWowWsIkBH_nk1Bn-POSsfBlfaTQVhL4Y3i2u790JNcrUxu56QqBXbUoESa18zz94JUBuErxGUgF4VisvpQA3b0F0Y81XoE3EfzN6Kcp3cXIBfdMjG2wPaoz2jt8aWHhkOCTPgANeHKaR-6Sw_imN2xJOpTBiwo0pcCbzGTWlMOEJvKo967MgexFM80WaHBgQcXaFyFAlBThnjQAEg-g.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/YnspSDps0m7XRmJIwdIvfsbRTAirNpjiFILVBi31T_k4JzitOPJg6C7Q9dgxgkMrD4DuJ4giiWWX22KAOoPBhJ318uFyVBLhP0bPAwQhPG3uwBXXfp45e-2et0mW0rLUEl1MdCU4HGrKza-VFsgE5UgVCnescuSE4yK093HlvGHDmXdrC7IH_NyeFfv-TUofKGvXou9vTGwQ_AAfUBfq7qTplVI0vA0GeqzDuWqiVfK7nYS7X0i9Yw6l5bH1MxDqOgYwE5xl8XZ9qLEtKRO-QYwHOqicF4jbAExRSdur1gUwrueZdUKI1gXMbfhApb6geayNA6ya8Ft0EA0oST-Iug.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/H-OhfL0ST4U9mKPRWrxbRALUwfWY4YrjG24JXnGx25Gcw_bx_BzjLrltXMS077F5Xc7wXJsX2kikpvaX-c8_jdiHou2hS6woKDaoyHBXszLxko_uuKOk0EwmYK6VSn0Vgygj8chbUvrg4aryliEHFgk4826jaXYLOJ0R2kYUHgHIGDY5PzgkpoyCLpIuJculEKf2lrMu8Em3z-XrXlFRwFxgJNRH0OJVuIyF7FWimBKXTq9DGtn9V10sL8LRafKPo94g6lxPlG7DJ3ztSMIuQjFhiJnSiFpuXnT3a4iTxNguEJGeCXksZnxXxFn4DW0Xt9m96FZLBAAqWPyLUr5CEQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/mDhQeAi-_MTAR9JYm_RtrN4GxE4Leju77XUUFAXArbSKRSsb8PCMYhxPMMtAJGl_XuoLxpxgEoqW6H4NCNLfRHSXJ-rrPlwZatjCK4M-vi2AlJI88PcfoP1pfRYqlxZ5D2IdqkoodWMikis5e8R43eihgaGX16eOl7v9BZI1vBUSc6XNKtmurN3fSk8tLbwBDC2SU2XoCItg9sq9iQ4Y0lvkM_2xM__858M92FSnWPEBS4giJYWytY_HlsdlxD2CXDJ-Vy7qQDz8iQxE_GggXhZChRcHztUGh7exzkhWSJKeBh8PNBfvCQ7RJDaKxgi7QTBrdGv6MJCoPZTAFf_a5w.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/71