Telegram Group & Telegram Channel
Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный скейлинг не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6236
Create:
Last Update:

Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный скейлинг не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6236

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from pl


Telegram Data Secrets
FROM American