Telegram Group & Telegram Channel
Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz



group-telegram.com/ai_newz/3353
Create:
Last Update:

Эквивалент GPT-2 Small теперь тренируют за 12 минут

Тюнинг процесса тренировки и архитектуры сократил количество токенов до определённого лосса почти в 4 раза - на 8xH100 тренировка занимает чуть больше 12 минут и стоит меньше 5 долларов.

Поменяли функцию активации на relu^2, а норму - на RMSNorm.
Новый оптимайзер - Muon. Использует меньше памяти, чем Adam, при этом тренируется в полтора раза быстрее по сравнению с Adam. Правда, использует чуть больше компьюта на степ (wallclock падает меньше чем на 2 процента).
Projection matrices инициализируют теперь нулями.
Добавили норму к QK-проекциям.
Паддят эмбеддинг-матрицу до размерности, кратной 64.

Пока полный сетап тестили только на 125M модели, оптимайзер - на моделях до 1.5B. Учитывайте, что трюки для маленьких моделек часто не реплицируются при скейле, но экстремальная оптимизация всё равно полезная.

Код для тренировки, кстати, всего 500 строк.

https://github.com/KellerJordan/modded-nanogpt

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3353

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from tw


Telegram эйай ньюз
FROM American