Китайская лаборатория MoonshotAI показала оптимизатор Muon

Data Secrets

Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный ✨скейлинг✨ не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию

Please open Telegram to view this post

VIEW IN TELEGRAM

www.group-telegram.com/no/data_secrets.com/6236

13.6K viewsFeb 23 at 12:17

group-telegram.com/data_secrets/6236

Create: 2025-02-23
Last Update: 2025-02-25 21:41:57

Telegram | DID YOU KNOW?

Китайская лаборатория MoonshotAI показала оптимизатор Muon