Telegram Group & Telegram Channel
Circuit Tracing (Отслеживание нейронных цепей)🧩
#ИИНЦИКЛОПЕДИЯ

Circuit tracing - метод, позволяющий заглянуть в "чёрный ящик" больших языковых моделей и понять, что там происходит, когда модель формирует ответ на наш запрос.
Термин впервые появился в исследовательских кругах OpenAI и Anthropic в 2022-2023 годах, когда стало очевидно, что простого понимания архитектуры LLM недостаточно для объяснения их поведения. Нужен был способ проследить конкретные пути распространения информации внутри моделей.

Почему это важно? Circuit tracing - один из ключевых инструментов в механистической интерпретируемости ИИ, который помогает не просто предсказывать выходные данные модели, а действительно понимать, как она приходит к своим решениям. Это критично для обеспечения безопасности, объяснимости и улучшения LLM.

Ключевые особенности:
- Создаёт замещающую, упрощённую, более понятную версию исходной модели, где сложные слои (MLP) заменяются на более прозрачные компоненты (CLT)
- Строит графы атрибуции, показывающие путь информации через слои нейросети. Узлы графа — это признаки (features), эмбеддинги токенов и ошибки реконструкции
- Обрезает графы, удаляя менее значимые связи и узлы для лучшей понятности
- Позволяет экспериментально проверять гипотезы о работе модели через вмешательство (возбуждение/подавление признаков) в исходную модель


На практике метод уже помог исследователям обнаружить и объяснить несколько интересных феноменов в работе LLM, например, как модели распознают отрицания или выполняют простейшие арифметические операции. Недавно с помощью circuit tracing удалось даже выявить зачатки "внутреннего монолога" в некоторых моделях.

Circuit tracing делает работу моделей прозрачной, показывая, как именно они обрабатывают информацию и формируют ответы, что крайне важно для дальнейшего развития интерпретируемого ИИ.

Что почитать/посмотреть:
- Статья Circuit Tracing: Revealing Computational Graphs in Language Models от Anthropic
- Исследование ACDC: Automating Circuit Discovery
- Mechanistic understanding and validation of large AI models with SemanticLens

Сергей Булаев AI 🤖 - об AI и не только



group-telegram.com/sergiobulaev/1208
Create:
Last Update:

Circuit Tracing (Отслеживание нейронных цепей)🧩
#ИИНЦИКЛОПЕДИЯ

Circuit tracing - метод, позволяющий заглянуть в "чёрный ящик" больших языковых моделей и понять, что там происходит, когда модель формирует ответ на наш запрос.
Термин впервые появился в исследовательских кругах OpenAI и Anthropic в 2022-2023 годах, когда стало очевидно, что простого понимания архитектуры LLM недостаточно для объяснения их поведения. Нужен был способ проследить конкретные пути распространения информации внутри моделей.

Почему это важно? Circuit tracing - один из ключевых инструментов в механистической интерпретируемости ИИ, который помогает не просто предсказывать выходные данные модели, а действительно понимать, как она приходит к своим решениям. Это критично для обеспечения безопасности, объяснимости и улучшения LLM.

Ключевые особенности:
- Создаёт замещающую, упрощённую, более понятную версию исходной модели, где сложные слои (MLP) заменяются на более прозрачные компоненты (CLT)
- Строит графы атрибуции, показывающие путь информации через слои нейросети. Узлы графа — это признаки (features), эмбеддинги токенов и ошибки реконструкции
- Обрезает графы, удаляя менее значимые связи и узлы для лучшей понятности
- Позволяет экспериментально проверять гипотезы о работе модели через вмешательство (возбуждение/подавление признаков) в исходную модель


На практике метод уже помог исследователям обнаружить и объяснить несколько интересных феноменов в работе LLM, например, как модели распознают отрицания или выполняют простейшие арифметические операции. Недавно с помощью circuit tracing удалось даже выявить зачатки "внутреннего монолога" в некоторых моделях.

Circuit tracing делает работу моделей прозрачной, показывая, как именно они обрабатывают информацию и формируют ответы, что крайне важно для дальнейшего развития интерпретируемого ИИ.

Что почитать/посмотреть:
- Статья Circuit Tracing: Revealing Computational Graphs in Language Models от Anthropic
- Исследование ACDC: Automating Circuit Discovery
- Mechanistic understanding and validation of large AI models with SemanticLens

Сергей Булаев AI 🤖 - об AI и не только

BY Сергей Булаев AI 🤖




Share with your friend now:
group-telegram.com/sergiobulaev/1208

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from us


Telegram Сергей Булаев AI 🤖
FROM American