Telegram Group & Telegram Channel
У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/207
Create:
Last Update:

У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/207

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

'Wild West' If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from fr


Telegram epsilon correct
FROM American