Telegram Group & Telegram Channel
Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).



group-telegram.com/seeallochnaya/1234
Create:
Last Update:

Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1234

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added.
from us


Telegram Сиолошная
FROM American