ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/rizzearch/669
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/VszhY3gsZnhzFNMWoCPf_wizhU5ZQfVRuKnwX84RddQ-Dh94DNmVFxsgHMbEwjLOaZSOHTIeVfeGsBQ7ANEN4eK01xkGXKtK5DGf-JUySji75rABTdAcSrzWfzgozz257DDjAKH1ICi5cEDUjoPJ1PEdQY1ufhKyZjLtJRv9wTcqhJ4peLyQUWMLGuk3cdYTEuRlq_eXL3lbHzSAUDegb4xp-bD2R79fpBfV-U43gilLdZlpurDnsS-Fpj33jzBQNX27fPX4tnRCxKq6T-XdoDvmcA97EmdtYGwwd0uSGTtkjoMWwiwJ4xTy6hKbcvc0HqrvBC5Gsf3OgKIZV4vMYw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Kwvq1u0x26U2Bg9H5N5_PWiUD65JP6-sA8j0KeI0apZcaTfqXc_6XsSu2SEWwxpd6QHMR0v5YW692JXBolkLgVIs3PWrvTZI0S_MCEUB5bzzpKjmIeE-2DItt424gzIYsAaSACgnmX5fnIvpZTjW8oPUVX27kmiYhzu5oSFGH_5LWvdtCI7KCkdW4CCVS9ie3ekrUV818QV9ZksI2C3sSjXCXL6qXIk5BZ7QcbcRA3xT54k05JbkqXFqopaUFnBttGlJ88iEDzh5SLU96mv6RlWmUzjNDjPUSdc9hd01ETiGZjvhSlOmJpXSQyAq0HPD5QhqWQHpButHmHI39RjO7Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/jv_VJi90uCQJVgmTYaGnDHxyfjvy1FVfWXVkZfjOn5_szavqNOaxJH7k_rr2wrnrPcCN4s0w0fY4t7brwLNkLxFReLdHD0p-gI5IcaxrSTuh484pJKx2l1M2xoPlT6UFWiRQ2Dbi8kkZ9SiSfbu-AoWBcK3_t4gDNBxJce2pAuowLbrLkIJWVX2mbJJilE8-q-8rqOKWs_Ic8N3DGRyQuHYaDr4vPho16hUPYSVFBJCLPYTKDUZFW2c-4i3Ww1B0apKRlGKDi91jjLVmFnfbQzADw0p8xRDxPwvPlUMGsr6CVEOMPImZIQ-SNIxnrB5c0n8UCb6Bm7aJKL2oCar2Vg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Jv_liUNH0R4E0qbxsJu_zlXnzPyt_UQQpVpdeRO-YbapEx_MhV0ug6zuOBbDxJeVnkrCOQtLdCX-OPRCO5vaTUQ1GNpofeqstVQ-yjgUQ-0159KdNmXe0aGe_WGogFJ6HYWHOsqyR_lw1neFV5O8gPaMxrp5HCifypIA15To-j8UnjEYwfBF9JipgQEulxVcNk33gEmIGy12ScweXOIprghc2j4VYrOM_0Ym6FZ8yAB7_nYi0jsyOE8QzQ8X77k_v8KxUgCAEjQtbOLJOJRvqz8Gcjm7qutalLBYy-LpmOBWLlRSpIv2rz-BkI1noXBG3sZDMaNgwqIfueRP2plXdw.jpg)
Share with your friend now:
group-telegram.com/rizzearch/669