Telegram Group & Telegram Channel
Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz



group-telegram.com/ai_newz/3353
Create:
Last Update:

Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3353

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media.
from vn


Telegram эйай ньюз
FROM American