Forwarded from rizzearch
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/nlpwanderer/70
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики с сурс коде торча знатно так разбираются
👀LINK
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/VYMEKaRU0fYgRDvGAr2qV7zx0GQ2nejwHTgXRexj7OOW4CUDBzlr8I59q8oCXu44ns81WM3BA3w-xgmA0C7y96uAqfxcR5L2JDZ33OPTWUYoVozpSpf3uB_kxsb6laU_Bowg-qi8Cz1OZXYBKDZH7Y6JjU7t8qwWSqVGvsaKb_oFldX3tKex3oxDYi0k-yarqWcHxQY6GttD5LcaFiaOcne7AfozVc1Q2SZXNzd6PE4t8OW236PfjuW6Cd0iJeo9lha7JiNoWMDookwCdipJstsAl_ZXLEOZDQL_6B9uwzxy9fTtEXKMi-5cl-O6cI3O91pxK9TrF1OWbkeNqmZ9HA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/fFR6MArJDq6PF6o5GBl2GXeLpF34ADpVMu257zKJQCG4kb7BV_uOJkwYuMfTwuhTYhp3tKXT8a-qwXUbTwzmnHYVWtzuTinJr9SUBVp9qP_PP6tZ2xN15Rs5JmxTeiS1zF1nMyO9wAZ7LlvajinAnfjhRY1BHAfuEjxaCgFnI5T4sr8GyZAab5igHMJ3tkZgS-9caKKl7zxj-QiVgEeny-Me4U8fmR2bhNwhbcX6v9MXOqHBFzT_Sh_3wLb7hZdlIJ9XnjIQqQK1eqavVqABRdCTXWISlhyo9hEbws-svf0Vf4KtZd4LhxTz1FVHgodvsqoBH6t23-bd8fHateDJfw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/rpC9cPKQyGLvK9gEKBY9LMKKsqK3771Ayr4PCz8uVMyzKzAwCufupSL6aUKJKpDv1aSEzBOZOedccGv2Uq2lNalTKAryyPQD4tzgpBUscdjfh8koVf9n5v6WfCkYTbRVecaB2oNh17oFy8jm3T8ZESHUy6MegyvPdpA4SCoNpunVBW_5YpyITxX5Yo6iWRTqp99Ll7yos1fsGx6E7NXf8dBP_UyWNgpar1IGtZAptqsZ7EmCpc47UMxWGu8sq1gu_7_7lVqQ1d50F6v6Reg0SVk4ScukFErgE4wpmvNITCnoYV5t_DAG83iqVi0mIrAdEOpF6BTsQ0NRrLEQ47ZQmQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/mvavvhkCFSx41N6DIKAySFxZYE7fsB9n4QcT-cUzB7ZY4KolVl_tFnqiMbuDqsYLUlQ1b5_mYd--MAbdBiuzxxjMmJCAHB-4OsKhuOFVeEbEAKcgB-72gdlmi3pUi5BZ33285TTenKoLLgqNZVwyCRZbcIKQ8bKBMsfFaA-veVmVJQLpRZBDR1zQrkTevSUpV-fmy_Goh7OWTVDNAs2Q5of_oydd9PmsXuS3wGJJnlDQGL1Cnm7lH2h-CmOQjDlfBUxdatJlYtlfEX55_t5i5SG2vTbxK48tx9noUhPucyR7jGbUsVtYJ1MMNJcSdz6zK-Hd06TEtng_KucpUq8BwA.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/70