Telegram Group & Telegram Channel
Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный скейлинг не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6236
Create:
Last Update:

Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный скейлинг не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6236

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said.
from it


Telegram Data Secrets
FROM American