group-telegram.com/data_secrets/6236
Last Update:
Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW
Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный
В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.
С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.
Код опенсорснули тут, так что уже можно тестировать имплементацию