Telegram Group & Telegram Channel
Разработка нового alignment в нашей команде подошла к моменту, когда необходимо анализировать внутреннее состояние LLM, поэтому для тех, кто занимается интерпретацией языковых моделей и исследованием их внутреннего состояния в зависимости от промпта, нашел кое-что интересное😽

🥂 Либа TransformerLens - позволяет довольно подробно и с хорошей визуализацией интерпертировать внутреннее состояние LLM. Она поддерживает более 50 опенсурс моделей таких как Llama-3.1-70B-Instruct, Qwen2-7B-Instruct, t5-large, Mixtral-8x7B-v0.1 и другие (полный список тут).

Авторы составили супер подробный гайд в ноутбуке, что очень упрощает вкат в новую либу. Там же вы можете попробовать основные функции TransformerLens:

🔷Извлекать и анализировать внутренние активации модели, что помогает понять, как модель обрабатывает входные данные
🔷С помощью hook points позволяет изменять внутренние активации без изменения структуры модели. Это очень крутая фича, которую мы будем юзать в нашем исследовании - попробуем менять внутреннее состояние LLM, чтобы она на положительный промпт реагировала отрицательно. Так хотим определить зоны, ответственные принятие решений. Чем-то напоминает ЭЭГ мозга👦
🔷Анализировать изменения в модели на различных этапах обучения, включая изучение формирования induction heads - пары attention heads в разных слоях, которые работают вместе для копирования или завершения паттернов attention. Подробнее про них можно прочитать в статье Anthropic

Прям в ноутбуке вы сможете найти очень интересные тонкости, которые не всегда очевидны. Например, трансформеры, как правило, странно относятся к первому токену (BOS) - это, действительно, не имеет значения при обучении модели (когда все входные данные составляют > 1000 токенов), но это может стать большой проблемой с использованием коротких промптов. Вот различие логитов с применением BOS и без него, а также различие токенизации имени:


Logit difference with BOS: 6.754
Logit difference without BOS: 2.782

| Claire| -> [' Claire']
|Claire| -> ['Cl', 'aire']


Когда я проверял различие внутренних состояний gpt-2 в двух промптах ('You have happy emotion in yourself!' и 'You have angry emotion in yourself!') оказалось, что сильное различие токенов эмоций возникает лишь в самых первых слоях трансформера, а к концу оно затухает. Напротив, знак препинания (!) особо сильно выделился только в последнем слое.

🥂В качестве небольшого бонуса - если вам нужны идеи как именно модель интерпретирует каждый токен, то можете обратиться к Neuronpedia. Здесь можно проанализировать поведение модели Gemma-2 и понять как она примерно классифицирует токены полученной информации. Я бы не относил этот инструмент к основным в области рисерча интерпретируемости, но как референс результата почему бы и нет?

P.S.
Если знаете еще какие нибудь классные инструменты интерпретации LLM, делитесь в комментариях
(Transluce не предлагать⌨️)
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/kitty_bytes/28
Create:
Last Update:

Разработка нового alignment в нашей команде подошла к моменту, когда необходимо анализировать внутреннее состояние LLM, поэтому для тех, кто занимается интерпретацией языковых моделей и исследованием их внутреннего состояния в зависимости от промпта, нашел кое-что интересное😽

🥂 Либа TransformerLens - позволяет довольно подробно и с хорошей визуализацией интерпертировать внутреннее состояние LLM. Она поддерживает более 50 опенсурс моделей таких как Llama-3.1-70B-Instruct, Qwen2-7B-Instruct, t5-large, Mixtral-8x7B-v0.1 и другие (полный список тут).

Авторы составили супер подробный гайд в ноутбуке, что очень упрощает вкат в новую либу. Там же вы можете попробовать основные функции TransformerLens:

🔷Извлекать и анализировать внутренние активации модели, что помогает понять, как модель обрабатывает входные данные
🔷С помощью hook points позволяет изменять внутренние активации без изменения структуры модели. Это очень крутая фича, которую мы будем юзать в нашем исследовании - попробуем менять внутреннее состояние LLM, чтобы она на положительный промпт реагировала отрицательно. Так хотим определить зоны, ответственные принятие решений. Чем-то напоминает ЭЭГ мозга👦
🔷Анализировать изменения в модели на различных этапах обучения, включая изучение формирования induction heads - пары attention heads в разных слоях, которые работают вместе для копирования или завершения паттернов attention. Подробнее про них можно прочитать в статье Anthropic

Прям в ноутбуке вы сможете найти очень интересные тонкости, которые не всегда очевидны. Например, трансформеры, как правило, странно относятся к первому токену (BOS) - это, действительно, не имеет значения при обучении модели (когда все входные данные составляют > 1000 токенов), но это может стать большой проблемой с использованием коротких промптов. Вот различие логитов с применением BOS и без него, а также различие токенизации имени:


Logit difference with BOS: 6.754
Logit difference without BOS: 2.782

| Claire| -> [' Claire']
|Claire| -> ['Cl', 'aire']


Когда я проверял различие внутренних состояний gpt-2 в двух промптах ('You have happy emotion in yourself!' и 'You have angry emotion in yourself!') оказалось, что сильное различие токенов эмоций возникает лишь в самых первых слоях трансформера, а к концу оно затухает. Напротив, знак препинания (!) особо сильно выделился только в последнем слое.

🥂В качестве небольшого бонуса - если вам нужны идеи как именно модель интерпретирует каждый токен, то можете обратиться к Neuronpedia. Здесь можно проанализировать поведение модели Gemma-2 и понять как она примерно классифицирует токены полученной информации. Я бы не относил этот инструмент к основным в области рисерча интерпретируемости, но как референс результата почему бы и нет?

P.S.
Если знаете еще какие нибудь классные инструменты интерпретации LLM, делитесь в комментариях
(Transluce не предлагать⌨️)

BY Kitty Bytes AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/kitty_bytes/28

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from us


Telegram Kitty Bytes AI
FROM American