ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/rizzearch/669
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/cBFgF98E3w6gEPgNVFdK0MnTkWpPQoULy6Jotw392RLxMCry5JLx1Hen-8fMLAyL8VIo7Kz6dnp-WwfhQgY_XRYg9LOt5gcSEHwslG4JwJLtDfBogF314jKjJvgweyDCBYRC6pdwgAiMY0l0X-jiszxIGDI2VK_AkLgS0a-kPRAs0_a6I4qV8yPTskA214wumnP5eLUw7ozmgjCvhVlNVmg7J9Wp-DG97MysrxFdlbbOFdNZAamUHN7heCvLjUt3Jda3NrkrbUGCWLRbj353w6mZcBDN8N_pGiWGaf4-s7jjn4VjEmF7qKVQ2h6UBGXY9gNf047FM84yNnMHILFnLw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/HswpOJwkimTWl89no3-VIGxWtDKew9zlpjmEpnPxpbOa3rENTXlVW6WrL-ZdXfuvzAqA7es19nPTgcMxMLeev_ptPWrXcsW_lYpgdYqG-G7OSUWTAxi4jtrCDrrYDf8KZHbxqwJzaCsCaLwGhRnl18FaOCbg0zA9eRpEvkNEgodGYeNYV_tw7wdDhAlfQ7dLbNjwwW4KeSLn6_fcHVc8ap4ozJNgPIMQMrgbHMGqlUNyGMLzA1GLjEsOiSmB8RejG-PjOM1YYO3IaEU9JGa2Ci-btRHMlG7YrdMVib860Z3JXz4nxCSWzORERzJ2zRizHzzoaIw_piH92LADlKC7wQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/HUesfERmTwVtfABbLhPvnX-d45gvRpRR6J-n6D6yAVoBSKRLP25SeKH4Tw2sQC2vYKvj4p0a6xz3tALVjtAgJkdItuCgJ9LIMODVNAd7faGhilLtmJXJSYMAmgEEx3k4-8gTZQj7M5hqMMVCHRaggIIwYONnLHBzDrCarYGpB5mQXDHS2yY1yDjRifphxglQrjoubgcm58cYnDCJ_gnBcU3pw3USBD8IYkbq96uallbJ4mUjqgk-fkFun2mQ_wXVE3zNyeEwawq94Cv6BCnpVSKWIbBlba9l76BUyTytnozFuEn-xvble_adwVfDTScbPWG_B20hokc-rltJGEqgYQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WGdR6_qjA0X9Jy7zsaxoa6xbTBCj3JHfNEh2KbovN_jWIhyRbMiX7g8Irh8zXkbd85_jP2ANpkcIJPY3zjo2plRau1OpGILUiIxWtRv2to-Mw5bHP7bJMLw5Vg2AFsjuczFgq6eUIsOO5J2awFUVBW3Rj_vzZ-8V_ye2-tKVTPZ0rINo70QuZN9EtJBdkiCSFBRzT3eaAKoTtowyKGsdlCGow3THCkXWpPE86EhIiHzLLGHgb9yxfm8xj5StMnC70OKkFboTl_k2XaGUpQybb7R14aZx5i1PB0dQvr32Uk3ttR6huYcocAlR7WwDhjhNgQfK9hbDI2KjFkQxinHtZQ.jpg)
Share with your friend now:
group-telegram.com/rizzearch/669