Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/69
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UhrJ4mrOFLXIMtjyCm156GPiMIC2yD1dkdFaiZ4gE2omnRN5o8IZb1WEJjIu9M7XaJR-YXtz_Cd16v_wjwN7d2Aw3dPlB7x5Ev80wt0GhZ-f_Gh1xyuy4vz941uZMukMSicBZDekVVtTmEXBfAkSdbhpUU-jFVKwyM3fFL0pSRBp7dkI2y3acH57hfvIT280yw2dKfJgYsjxXHXN6yVFyPvSXnERI0Z5dFXG4nVVOZkP5A3XswKsG0BKFn3P-y-qq7mBc3tI2nf8wzgUsi03GJHONUwWwP5WnOdImprr5PxAzjWcb2SizpNdziniohu2rz95XA9Q9qzKrXaqwoPkIA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/qLMM8Ml0pEl16lBS2t0jRDSIcyXC7DqhPL0qkPbu1x0NNFYKrqmMhlDA0QWcszyk4B5Xr5fiB7LNfERtxmvhGjTGDt34hgF30rhT-6tHVHz4GEavi8vkPe-kZQ1fkdJbSuj5jfUajQSIH4xF6Z9unWCI3fiBu5rZuUG0z4zwapFoGEmikTb6cU5550WoW_dIlUjKJz3HECGJsF4NWicD-tDGXhKT67mtz2MYaFAPvhCKYE7r9sDwIey5M-ImxJ9-Z9LrVwH1ybsV5BilLvSe59fy5d5I9gAxHdfa9Zc8nyqduw6Xo9mCf_TPJ-WNpechBSlmkITp0Gyivi3r-2de1w.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Hd7FtiS0nHINXj2YA_NiK20mfH8xAe1AlkVcThzE_9pFo7-lhLIVi6-bDcmxRQ7lbVB-UThtBKA-f_VK9sBhyilbb3szhLSN1dpdQ3EcWYzX04ue8KvEdH9vzJLU99pG6TNi6yK-tOEieQ4yUV7E8BeGQHHpZ4xW5FOwbaOVUbpJ59mK8rhxec7jYxmLtYz6EeMZZX17yGDyqEs3_57FT51wwTuprwDxlk_y_mE1XMUy_0qF-vXlJ6gpA41sRF8LFzKaFQ-brNCG87pu9iXFGya_wvTFqcIH9SpREBjLE92BaEJhs4vQjtwnTF7jIc_R82gYTUKJVmHmqBqDnuffQw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WDmwQJzsXnmxXK00bpz081ePwjtz_YWydDrsFO7eJgPUub3L1MoOdc_06Y-Eq7UwjpYvbpWNIadBMiYIYd2WeK0oxA2PG_9NAVNXUFOwazBYdm31ti7bUz9nWpF4H_gkV3pZyMxKBFsv7cJ6ayjDf74EnARuqD3aexG9W0o-W_WKMc35DnSMQAlDcJWiVxkaPitEJASY3zFe4GuzID-4RdJVnmVfFhCnAq7qKSh1GxJvSenFOiWczWg1csL_nq-hfaobfHfyeQto04Jjm5wm4Vc--6qPb3DG2R6AROJjxEHvGz9y9uOLxLFyZKo-JLqfpsau8MbW5ke9LVTWZSEtzQ.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/69