Захожу после работы на ютуб, а там все сверкает, переливается, крутится, вертится...
😍 Что же это?! ..
🤔...ну конечно же, новое видео от 3blue1brown!
https://youtu.be/9-Jl0dxWQs8?si=VuVVJaYfPZYNxS9jСтала смотреть, а видео-то не простое: к моему удивлению, оно оказалось посвящено интерпретации эмбеддингов с MLP-слоев трансформера
🥳✍️ В первой части видео автор показывает, по каким примерно принципам факты могут извлекаться из этих MLP (multi-layer perceptron) слоев. Сама идея о том, что MLP слои трансформера в большей степени отвечают за "вспоминание" фактов, чем его MHA (multi-head attention) слои, известна в ресерч-сообществе довольно давно и берет свое начало из ряда статей, самая известная из которых эта -
https://arxiv.org/abs/2202.05262 . Однако, я в первый раз вижу, чтобы эту тему раскрывали в ролике популярного формата!
✍️ Вторая часть раскрывает главный феномен, стоящий за серией постов (и статей) от Anthropic про features superposition (
https://transformer-circuits.pub/2022/toy_model/index.html ). Суть его в том, что в пространство высокой размерности, оказывается, можно напихать неожиданно большое количество векторов, "почти" перпендикулярных друг другу - намного больше, чем количество векторов в ортонормированном базисе этого пространства. Далее вспоминаем, что в пространстве эмбеддинга языковой модели вектора можно интерпретировать как некоторые концепции, а значит, в эмбеддинг можно напихать намного больше "почти" (но не совсем) независимых концепций, чем размерность этого эмбеддинга, получая эдакий раздутый псведо-"базис", по которому можно раскладывать другие вектора и изучать их семантику в соответствии с таким разложением. Это и называется features superposition в статьях Антропик.
Под самим же роликом, к еще большему моему удивлению, оказалась ссылка на туториал, который я сама сейчас ковыряю, чтобы разобраться с библиотекой TransformerLens:
https://arena3-chapter1-transformer-interp.streamlit.app/и еще много других интересных ссылок.
☕️#учебные_материалы #объяснения_статей