Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/72
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Nvh0uVT4n2IdvAuEUxBSDpTxR2MpjSaojlzN8QsYCzraeFy5cc31L6cqIIGnCKIV5IOGbqQhwi3djjcGt9L0Tz1wImJygEJPzl9pNRiKe2lvagfmuHkDdqpX4XMKGDww4h_xsLcEkf-FR_18LolLF5boRlSFArNVCToGmnJkdX-r5lVpO_rVIF2GZeV-H62jxHG_wRycpCS2nPcQJvyWAP-YQuGwfL0cw2qasSOqI4Rbhf1XPsIRQCp65lj7xsV6nFQozE2G1hUHA5IMJV69N2spMCSRBek3rP1PkkQoUXdOCoHRozuteWjQ_9A9ezuwCQrY5yfKkO98Oq_ZqycM1w.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/uhl2pkFatoottCwRY7Z_ZS9bKdZUw8uNqPFHBL8YmlEFm9pBXefQl72tXfUFktWXwi_xBqohK4c2vccpBSYgv5UrLIKlL-ALgYujQ-xuDs12nnhE0fFJpbdAgA-Y2P3gyNeGAxoSlb3wFjqa_RTJvQ8NO9I28cXqTsiakpgkP8QX0dnQCj6eylddAxpV5sNF83zsTUrX4gjJ5_1_F-JC4CK8CFWCvQpfWvvXnwOEZ2pZXawXQ2Myjo2l1bb-JWxNZpCpBN3Pc0B3iGVWixcpou1pV6h-jq5fK2pwzo7W2i97ceiuJ0xnWZGwyUiWXe6x75mYxwNdb0C2z216TNj68Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/CBJKYktRnU6mlYWM0NhSv1ZWNfFrZRT_QaWFHY9gpZiJbDoRBETLmVBKiiRuQt7t1W3GskXkWNy7pUXwgS1PUhvhj6vktcO4wk6k8jd1wiaFuQZoBjDbGPAUAczh4JOVU9NvxGlxGXOVppsN0tNbX8EWwScirvLsoLyErc75YpmCLtD5lLcRBSMc9HKYy9KO7SkO1XKJDvOqjrC7kSbDhv6z_z-wLCwtg7OsTHxlWiOIhmDj3IbMBZwikjNFUDkQYOHfrnD9Nfn0tqxLLNSapd99Qvc0b-BoQIr-4o1A04xfM2nwlvQv2MyPgd9kUCVbn0RH2ULA46TEjhoBdXyGPQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/jBfU0W9An3XqeVjIw12mxYD3sNMzyUhRFXH54r6cthpN9A5xJmgqm3Nue6EDcZ9-CP0I-w_eipffrKbQHQ_zm31JzREJQddPiiUmFyoftaZp5feJx7y5txYmNk4wodrYXym6L5ZP0PK7DdnEBwn1xSoYUmjahUEyJz5LabFdofbOww5JpQksGeTZnyQ132ul4jiYqBxKcUx8qneRsywUemjPogGIO1ASsbWFmdCGanZf81_lyKs6TjRV1Il77-94NpGHVvaN9WFh_ke0qU1vkzc-ohsXmokrWYVUy6t_wuimP7Us_d3f2HQ1qPTrT41q8KwGP7N9a8OPM02aOrDxGA.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/72