Telegram Group & Telegram Channel
Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).



group-telegram.com/seeallochnaya/1234
Create:
Last Update:

Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1234

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. For tech stocks, “the main thing is yields,” Essaye said. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client.
from nl


Telegram Сиолошная
FROM American