Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/70
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/m4kSFYS0gjZSYAOc7cH1LUZ2Ta55B7-bCTmChVvTRNwt-bfdvaxfeswOtZ32c3eRis8c0qwK8K1EyGssLX7NzxGHKb7CF39SN8FQ_hvQGxznHdADWFid8ylWrCr22eWRAnepwb-plUY_eU4fwKqC4L3G_lvDP4MG6ZYlr67u2uzC8iEhIJY0QFMXFIqgjPGbRZ1S9CFARC15fKIC1EQzydyRnjWfKah4Mo2yyVdwO7uP1LqEz4lp7jt5UfWDFrDhGMbesIe3_8OD6TW3InjCrBiKHsXIhEVXse_bqrEYgQPJfXXMk3_KaoIWrKiLHi-oEN6JdXntMxe_SGxdnFT9Ww.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/oKspRuxInUoiq4I3wAURG-q0-fDbqmjnJIUL28c3ukaImUUNShMvZE08IgrgA8VBtOH4TV-LogC-66fwG4xo4CTpf3d_0TwBkE2LmLzEITxMJ7jBmDuhtVZwA9F5hMNcLJ0p8vx9tt0nTV29YeypJyez5Nvlyz5e2W7oHogeq6RmZQel05U-VjZZnakBeXoADo2h7KX-2pGZjeWluppL9vdBUNFLpbTkNyztQH5QGzZ7bVNYTnfSGCOgipW6G9-fRfff3q1j1lJkYnLN6GntFgO6xdLHuzy8kgcg6F-kyJG4zXxkyD37qcFiHSPQPrTVuaXZzg-J_-Qku1gGj4tD1w.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/SpumIdz0jM5qwL3aZ3OcIqGX8M13LkUjJaiaN7GPnde01eOjozFkKixAKu_FrI2SlASjXzm9rQvLi6zPnh1u7uCQQHMyiscifz9WzC3KT74gOUya17uUFjj7xmtJP6OcZw8Rumzk_pyQ2Z0q6k6XrZeEhFHdfLuZQpA5UlooQLuKrj6AHGof3BOI4Kcmf8_avG8cXZU1uL3Hpo2lMDLT1lMT7-KgfwJnYI0jKKB695IdgYcb09rexmwHmsg6PXXUDmq505ISyaY1zolERyZ9wknRh-s0n_FCBbk1fA8ta3MxNuPlJ2FZ9hpYl8zm8Oe2Qh0m4YtYFxhD_ZFv7sMSkw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/p-fjnFvO-Flcnbv2FHZGyacKzR7TKmxnKWmMU46pci7oEZGoSWITCeBB1JETSYATKFIsqNw3INk1Juiz6Ukr-Jossd3WvMnYBbTn7MXLXvTZtJRaTWp_74WLRmo_iF7gfyWIYyAxInnFolXTpZvR7r6U0tfLXEmlQbDXP7LXltaQh6-T6Bdcyqe-45OHh0zTF30BS-V4YKRof8yY6RPEkXz4FHynzmaGjW8Y4MHTH7NnxRz9ZkiXLYld0L3NQuT5YBQzvhWrdcsmBVYspUDrJLc642EQoRAU3kVkJT-e4ylQJthnDKyMACLGI0C4xdg3PQiqbQ3rX2dQWqBIktFwcw.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/70