Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/71
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/YeybaVZT1aIAABNjTQN6WEClZAo-hpJheI4LH8FOwl8LzjSEw98LmFgYSI7VIQzyWOF2s73C-G_S8xUIbXlpTnRXLt1OoMi0xKe1aFmOCe0iCIGVk0HE63GIc_1fOPfIN5XOf9KM9vHAQBN9GRBc5O-gSzBq8DYVA3ANpJ4AqJoUFxBhDdlt07yycDNRrEHMpLQdUxxS56Qt0D52UNSJzq0TpT69MbsbvMOQDk39mJIfnYMwgDyPxkGx-2DUm-pYRiIsA7hmOrpu-XYrpztKvbokzWnw55yk0D_No7CMkGPhY0S5fz1Daib5T_1Krnis5aveKzebdgwMNRPirbFe3Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/nBp5Do6tZTYUkmXvRh3C4tze1QFASyBDvYnUKMljAxkGuD-nGAcSJCtjGY5gE0sKuzLv0RydUC7ct9tAoCnUd1KkUGK-C4u-eaNeowfmXez1UoNUUI6muRrE-w8d2NeSEtL-gm9GMfJvEkTXEoNGA12fU4fnpo5DR8pBP_KpAkDTgsSAHaEriacEhPypd0XT6IBa9KwvDxR7X7kedOAUNbopJp8OSuzj-PTHyQOQwGhGtsWf3N_XgXs1agoe5ItMjBs7sptnsj65IPq27VmyhZWNCdODT2ILQ6_BNEU7gLCiMV0vh68sO9Bl4_VdnkZNbmUUBQnOdBvV6xFel7_Weg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/bGNRoSBLBNu7TqWAXZW13TwPtoTpH1Oki9nhWU528Y05BZQxzyvqSQ1bvIcKYXU-suYDa-Pu3HLnXyc3iu9MY6_KFDpAOYLq0x6om7PC2oZE1_6o0-TXxt8jCbYpaYSeopKY8nZ7eM8NNmLVHvMgaVWpuU2SWfapNt8UFKAeEOlgL8ACDqPhVD2smtUzE8NDTaWqmALx5rhXLMgXdPi2kzZEVA9wzPyR_UvR6MdBJVQy27iiqmkq5J30EV2ZS-5Bw8U26kOnxPnb5uskSgX4EjTUijtIY99zmylnlNl019WeCBml9EAlAEhu0ADVDp4mhzb0zDLDckwDNZn2pOBpug.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/R0QAzx1zc_8kZFIVY6xrdgOmzGusSCB6u9NLbjlaIHqhWJSqy79gvFuEjVMa-BiwOL16kAN1a4dp5ULi6xVzixXgmOTEgbBgZuYIGkBQj3BVheGJQz8nRmSOTiUZv_VrVcpVdlHMxj3rbgdklVOspjFlNgq14LGqbq8aLiuBn7taaLJ89jvqmRtFVbHCEfzxgoIx6FQB-IvqXpnhXzQHZ7G7Zs4FcTJHmMVB68x_nkwO9sXacGvdj4nQXU0cKcJNmIEGLctvWUvi8v7K2nrH09WZfbH63ExHOV6YZgZeE82JVG7WIUThodkK4lVTvOR0XnyvsI80tY-Hj1vVvrTZAw.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/71