Telegram Group & Telegram Channel
У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/207
Create:
Last Update:

У EleutherAI вышел классный гайд по muP параметризации LLMок.

Для тех, кто не знает, muP – Maximal Update Parameterization – это серия статей, в которых Greg Yang (сейчас в xAI) развивает теорию параметризации глубоких сетей. Что-то вроде Neural Tangent Kernel или анализ сетей при помощи теории среднего поля, но с выводами более таргетированными на обучение сеточек градиентным спуском. Один из результатов – стабильная инциализация параметров сетей, которая позволяет избавиться от необходимости тюнить learning rate градиентного спуска.

В статье "Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer" с ребятами из OpenAI Грег выводит методы инициализации трансформеров. Нужно сказать, что, скорее всего, в индустрии не все инициализируют веса по muP, всё-таки теория и практика отличаются на практике. Тем не менее, с muP для каждой части нейросети мы можем (хотя бы в теории) сказать, корректно ли она пропускает через себя градиенты. Градиентные энергетические блоки – бич многих глубоких сеток, и дебажить такое – сплошная головная боль.

Сам Грег предлагает начинать знакомиться с теорией со статьи "A Spectral Condition for Feature Learning", к чему мы с уважаемыми подписчиками и приступим. 🤓

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/207

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth."
from vn


Telegram epsilon correct
FROM American