Telegram Group & Telegram Channel
Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz



group-telegram.com/ai_newz/3353
Create:
Last Update:

Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3353

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. He adds: "Telegram has become my primary news source." The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from us


Telegram эйай ньюз
FROM American