Telegram Group & Telegram Channel
Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).



group-telegram.com/seeallochnaya/1234
Create:
Last Update:

Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1234

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin.
from no


Telegram Сиолошная
FROM American