Telegram Group & Telegram Channel
Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный скейлинг не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6236
Create:
Last Update:

Китайская лаборатория MoonshotAI показала оптимизатор Muon, который оказался в два раза эффективнее AdamW

Сам оптимизатор не новый, он вышел еще в декабре и придумал его Келлер Джордан. У него Muon (основанный, кстати, на ортогонализации матриц) показал крутые результаты, но только на игрушечных задачах. Заветный скейлинг не был продемонстрирован.

В Moonshot показали, как завести Muon для больших моделей. Как оказалось, требуется всего ничего: добавить weight decay и внимательно настроить обновление в зависимости от размера матрицы весов. Хотя, надо сказать, что последнее не совсем очевидно: для этого надо было заметить, что RMS метода не равно единице и вывести для него верную формулу.

С таким набором Muon работает из коробки и даже не требует настройки гиперпараметров. В статье его проверили на модельке 3В/16В MoE, и он обошел AdamW на производительности в два раза.

Код опенсорснули тут, так что уже можно тестировать имплементацию

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6236

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Some privacy experts say Telegram is not secure enough "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from br


Telegram Data Secrets
FROM American