group-telegram.com/nlpwanderer/46
Last Update:
Хочется еще упомянуть несколько важных свойств автоэнкодеров, которые авторы обнаружили в статье
– У фичей есть своя геометрическая структура, где похожия фичи оказываются близки к друг другу (что ожидаемо). Например, Золотые Ворота близки ко всем остальным достопримечательностям СФ, а отдаленно они связаны с другими популярными местами, типа статуи Иисуса в Рио-де-Жанейро
– Одинаковые фичи оказываются близки в автоэнкодерах всех размеров. Различие между ними в том, что в больших экодерах происходит feature splitting – если в маленькой модели мы найдем какое-то общее понятие, то в больших модель оно разобъется на что-то более конкретное. Вот тут есть интерактивный UMAP
– Нашелся также и scaling law:
Если концепт появляется один раз на миллиард токенов, то нам нужно пропорционально миллиарду активных фич в SAE, чтобы найти ту, которая бы уникально описывала этот концепт
– Для 82% фичей не нашлось сильно скоррелированных нейронов
– Хотя SAE тренировались только на тексте, они оказались способны реагировать и на картинки!
– Фичи отвечают как за абстрактные, так и за конкретные концепты. Например, одна и та же фича активируется на общие рассуждение о безопасности кода, и на конкретные примеры такого кода
– Если модели нужны промежуточные размышления, то активируются фичи, которые отвечают за “пропущенный концепт”. На конкретном примере: если модели нужно ответить на вопрос “Кто был главным соперником команды, в которой играл Коби Брайант”, то больше всего на финальный ответ “Boston Celtics” будут влиять фичи “Коби Брайант” -> его команда “Los Angeles Lakers” (пропущенный концепт) -> фича, отвечающая за спортивные противостояния. Я обожаю, когда в статьях такое находят! По-моему это отличная ответчочка на мнение, что LLM это стохастические попугаи и не понимают, что они генерируют
Спасибо, что дочитали этот лонгрид! Мне очень понравилась статья, и если вас тоже заинтриговала тема mechanistic interpretability, авторы предалагют вот этот гайд: https://neelnanda.io/mechanistic-interpretability/getting-started
BY NLP Wanderer
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/RWN8SiV-khguGLKx00SFScCvLMjn0eOL2rmzqnBHyTauRS4zjGWyFhG6YFlqInuoCYliMMTH_rRB51nyhJgA7egxdEEDZaL55AFkhbk7nz6BT4IxR5C1jnH6CgAHujW505qBf_lBj4fZJP4Eu9_2UwnwDcAhgKeBwWNV-degFBq_CCJ_0wy6ccOQ2JDjMXjjO2ZBKk95CcRiteAGIINxbBK-Src66TKPaq-i5k1Lse4QQPYDpHnqayWUnmRGuQN67LM4LvJKiJSgmI-qjJ4cYwznSDDHZL10vEyBwYI0wIf_ez2LxgEw7idRhK2oAFF4AHOnvo94-x9WK1d0-CPkoA.jpg)
Share with your friend now:
group-telegram.com/nlpwanderer/46