Telegram Group & Telegram Channel
Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz



group-telegram.com/ai_newz/3353
Create:
Last Update:

Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3353

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Anastasia Vlasova/Getty Images
from no


Telegram эйай ньюз
FROM American