Telegram Group & Telegram Channel
Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!

https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j

Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера 🥳

✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.

Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок. ☕️

#учебные_материалы #объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1728
Create:
Last Update:

Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится... 😍 Что же это?! ..🤔
...ну конечно же, новое видео от 3blue1brown!

https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9j

Стала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера 🥳

✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта - https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition ( https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.

Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/
и еще много других интересных ссылок. ☕️

#учебные_материалы #объяснения_статей

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1728

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Founder Pavel Durov says tech is meant to set you free Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. 'Wild West' On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from it


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American