Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/71
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/qL-dWvxRw1eI_w9FdXZP17iDzf8hirjpxOSl6-FMYU1eJy-QKHF7ummlvwiCeAjMcXsAan-vZI3wi3uoWOv5ajsBNNCKYjJH-kzvYDmEQDEam29owOKQxD28BbhX9SSsjRf7egtr-btOtMhQx2bAt6Ns5HNdi4ifZeJspK9XTiiUp4Vr21LnyLl3zwIZJa66LTL3WoQYo-7TMCL0B-yntp5w2U3vtqiLGyiNv_LM8KaN6sVV9gk6SJ9Nlade5QGJxdMIaGho1ZKFi1Fzqy9D6rdZNWtGoCeLcBRFVuE4aP-Leus5Fsk1EPgsVUSlTOxUJW1bODKx_CLBv-eegJDdOA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WVmJAG7drqeEjWm4Rl5CdTGCAjTegon1TRjV8hHJwITDIH1eHr8KY4PytnYqsBsbd4LGDWWuGiLzglcr1NqHMx2z3bSkA3rY-rZgTvab-UMDfZxUOvQua15ItOj0tCXY7PWuplX9rcWNj7k-I9aRsCvEEHmEUSohRUHtloAl7pAkghlYEcm0rAqpNFfG6t1s-P3SXijSrL6zIYpFnw6YPds5SqbPhV-g_HtolQOvN1Vv2hrCqTaUl9iDMsRLlaV756DawUxF0uJsABBuBMViz2XR9nCmW_4SjJErtIm0JBanRMT4WmXnx2HXWKqWLgHkpWr5T39AkG-pnSFpzvFnsw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/LMCI7WtgLv7_M5ri7A-JLiUUEvjyVis76Ehw3dR7gNXtIkzmqwS8gKY9fseIXZdM1D0wlxkV3uc4dIvUK5K6L6Z8MaDLkHYJvnhWkOvYQaB83RWPbpY_hV1mKfNQOaLaYOFBrvwYZTKPOYFX_jGR-6Q7D6ty2WwIPCeL7WRrf5aI4aTZ757kQVYLdmqZe8Vp-C43xHLm3kVUkRocM7r9dmqAXSPcSDqtOOaA42z5bi9GdmI-VZ5E6Q2zJ78-Vtxwc7cwdK7FsxUIVxCukP-yJh1lEQo3r2Ej9UizcbPQosNbAAPIFqE6_5jq0a-kASzF9oq0luRGvcqZw45nk6vTeQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Sz4hZSgqvVirOSwcBddaqF-O6csgTMA8-VnzRwVk_AlwjCdBXdULLF5WvHBae_jihWMxY5arJJ608huHIpDvBue4X8t81oVolSXbK0betfsN9kWvwNOVfi0G51a1Q3dj7Ys2zIQg8qJ6lhbt2xh_MmZLj_Rk6Dk9Tn4RDxskhN7jwuXLl1NJVmKYCNrjG821jynZA0fkWiORncUUGhXttydiL-l7bIFW7mMlUkZrMZNk3x_3tv_2YMGemVRwyqRfHp5Z5AthgKTbKsHLqZvR_HnJblBUvDrTlhuHl3vH8jFUbew12dTIW7VJYd9WEpLqDiKEE6yNmhZn9vI_9GCU-w.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/71