ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
group-telegram.com/rizzearch/669
Create:
Last Update:
Last Update:
ADOPT: Modified Adam Can Converge with Any β2 with the Optimal Rate
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
на определенном этапе заведения модели, которая не заводится, начинаешь задумываться про гиперы, которые стоят за оптимизатором (помимо лернинг рейта) и самого оптимизатора. например, на беты
и как мы уже упоминали, в то время как первая бета отвечает за сохранение градиентов для первого момента, вторая бета отвечает за сохранение истории в бегущем среднем вторых моментов градиента (что логично). и с точки зрения теории адам (да и в принципе все адаптивные методы) довольно плохо сходится, если только не выбирать эту вторую бету в зависимости от поставленной таски
но вот авторы-японцы (возможно) смогли это исправить и нескромно назвали метод ADaptive gradient method with the OPTimal convergence rate
и вот для того, чтобы вторая бета не имела такой сильный импакт на сходимость, они к удивлению меняют расчет первого момента - дополнительно делят градиент на данном таймстепе на корень из второго момента. простенько, со вкусом, достаточно нетривиально для данной специфики
по экспам где-то даже резы лучше достигаются - в том числе и на 7б лламе прогоняли (правда только ммлу, как любит замечать наш дорогой друг, без алаймент бенчмарков это не особо релевантно) + для мниста и цифара брали только резнет-18 но допууууустим
к тому же тут есть тоже предположение в их теории - о том что второй момент градиентов ограничен (менее сильное предположение в сравнении с предыдущим о том, что первый момент тож ограничен)
позабавило еще то, что в вывод в конце они зачем-то решили вставить проблему социального импакта мл алгоритмов (хотя статья чисто про оптимизатор)
а код оч классный, челики в сурс коде торча знатно так разбираются
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/VcHaW06N80z5Ydlag_XfefZ_lTNIWfZ77zGItCkZGyXtjwOZFkFogXYzJOyORRbceMm3vrVzrdradhGR25w5L8tAyptERPyYyo5CU4t6GzHF-AeulMErBI5e05uoNWkbq-gd3SjS5ky_tNEIZf2A8S2RJTsvLbVENjSFA6EQn8hPHSljm84hIMdRTHaWFm22pkyIAnXPsg6moDCZwqWFWAbpCom_hHfHVdiH3RYGnOXzllj_B0fyG7XIfqbPMZw1oeVV8bf4_h2wnYulXW57fQSRiYsx4IFDYmqNCEIzBj0S3sSOpiC-17rqAKBeFvasjdml-6eFP7Jy7w43wW0cJQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/MBHqvjm06W25Nn_9MH2YUwcPV4zcrLqdxfW7X7xexMgJV1uxhT1Dh5G8bo46dN4hEUvT1eu2SIVKMyNBOWsvKWP3dWnz1ow4XRBpzk_Bt-XCUBfhvFyYu6zhXiPhugX8Q14yuoJ21VDNqKGCGPO8Y3qxXRSt8ABZHqhs6AZM9ZzhhsAATmtDG1Ltju-p1FGTeBkAaku9W0y5rEGboyqNWOTlg_JgIBxLj0nH6v3zoCk98-U6m0wpS3_pRlT9xuusUkPQCxiHzWw-7CaUiRRscXYTG-ogRT8p93mrLZrtDxhqL4ig0gzSomV3rmCwwgXD2b558tRMpLDna8kISQa5TA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/AWWFjP4pTMC7bn54DzX0g3Okx8-hKQDJjNX0xjiNxW9MNXsNhdcettz_XkN83idl-i7URAvlIct8sdeXbXLoEG7vffCvIP7dEqa-fM-lHMcAOpbp1UkJD15GabRdmoaXWUVSDtx9mx7IVHK1DDhJ6amrgluD-BmV2LF7bN8g7ED9_JDh-imApErzuaJ7PBKqiiZbdVe64ZF3tVKWuEPdhBOdkEVh8zZszq_dsX7l7te-DngJKQqzy8cPXBwQgOuojza9SeaABsvsaJ88DEquXfg3sTCdgLrFiFS4yVyvvrzv_qFEP12ZhDZFHl3SlL1skd2g3bI0W899Zp5nxjcc2Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/fmsytn3_1ZPRgw5kKPOhZY2jPMw9g4jsH6pKJmgVx_GeTPa6yUhoC0bMBgTN88Ka5kXH-wVe8s9unQfvZzbOi3YAIx5yGtP6crCpGjEEvncN-99RfcJyRei4gHzmwzL7y_MrdFqbIZIS8ZneO-c0bsyJXGrlOA-JMMwqxj3Km3TY_NykbsC9r3x7mMKCpkVjjlbp6t2RVBrRIx93CgFoypzXTGy3mKTB83Kxs9hm6_wc5KADeVX_2b-YAaqThRQAFBfq-Rm3MswaSGBAGcOJ33n_633DnPXJgHY54OVsMe29A6W59MdoOtWqHx5j88zGvgTWh1T5hXYZ-g7eUMiWpQ.jpg)
Share with your friend now:
group-telegram.com/rizzearch/669