Telegram Group & Telegram Channel
Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!

https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j

Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера 🥳

✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.

Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок. ☕️

#учебные_материалы #объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1728
Create:
Last Update:

Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!

https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j

Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера 🥳

✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.

Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок. ☕️

#учебные_материалы #объяснения_статей

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1728

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American