group-telegram.com/sergiobulaev/1208
Last Update:
Circuit Tracing (Отслеживание нейронных цепей)🧩
#ИИНЦИКЛОПЕДИЯ
Circuit tracing - метод, позволяющий заглянуть в "чёрный ящик" больших языковых моделей и понять, что там происходит, когда модель формирует ответ на наш запрос.
Термин впервые появился в исследовательских кругах OpenAI и Anthropic в 2022-2023 годах, когда стало очевидно, что простого понимания архитектуры LLM недостаточно для объяснения их поведения. Нужен был способ проследить конкретные пути распространения информации внутри моделей.
Почему это важно? Circuit tracing - один из ключевых инструментов в механистической интерпретируемости ИИ, который помогает не просто предсказывать выходные данные модели, а действительно понимать, как она приходит к своим решениям. Это критично для обеспечения безопасности, объяснимости и улучшения LLM.
Ключевые особенности:- Создаёт замещающую, упрощённую, более понятную версию исходной модели, где сложные слои (MLP) заменяются на более прозрачные компоненты (CLT)
- Строит графы атрибуции, показывающие путь информации через слои нейросети. Узлы графа — это признаки (features), эмбеддинги токенов и ошибки реконструкции
- Обрезает графы, удаляя менее значимые связи и узлы для лучшей понятности
- Позволяет экспериментально проверять гипотезы о работе модели через вмешательство (возбуждение/подавление признаков) в исходную модель
На практике метод уже помог исследователям обнаружить и объяснить несколько интересных феноменов в работе LLM, например, как модели распознают отрицания или выполняют простейшие арифметические операции. Недавно с помощью circuit tracing удалось даже выявить зачатки "внутреннего монолога" в некоторых моделях.
Circuit tracing делает работу моделей прозрачной, показывая, как именно они обрабатывают информацию и формируют ответы, что крайне важно для дальнейшего развития интерпретируемого ИИ.
Что почитать/посмотреть:
- Статья Circuit Tracing: Revealing Computational Graphs in Language Models от Anthropic
- Исследование ACDC: Automating Circuit Discovery
- Mechanistic understanding and validation of large AI models with SemanticLens
Сергей Булаев AI 🤖 - об AI и не только
BY Сергей Булаев AI 🤖

Share with your friend now:
group-telegram.com/sergiobulaev/1208