Telegram Group & Telegram Channel
Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).



group-telegram.com/seeallochnaya/1234
Create:
Last Update:

Studying Large Language Model Generalization with Influence Functions
(блогпост)

В последний год понемногу слежу за темой LLM Interpretability. Я даже в лекции начал включать релевантный материал, так как безумно интересно.
Interpretability — это когда исследователи пытаются интерпретировать и понять, что происходит внутри моделей. Можно задать огромное количество разных вопросов, почему возникает то или не проявляется это. Уровень понимания у нас пока очень слабый — наверняка вы слышали, что нейросеть это «чёрный ящик».

Исследователи из Anthropic задаются следующим вопросом: какие примеры в обучающей выборке вносят наибольший вклад в конкретные ответы модели? То есть сначала они подмечают какие-то особо приглянувшиеся сгенерированные ответы, а затем идут в обратную сторону, анализируя отдельные части LLM.

Зачем это нужно? Наблюдение за этими закономерностями дает представление о том, как модели могут обобщаться (генерализоваться). Например, LLM может давать ответ, состоящий из объединения пары предложений, встреченных во время тренировки. Это примитивный случай. А вот может быть наоборот, когда на передний план выходят текстовые последовательности, связанные с запросом на более абстрактном уровне. Тогда это может служить признаком того, что модель «выучила» определенные концепции или высокоуровневные представления.

Я не буду описывать, как это делается технически (спойлер: нет, не обучается 10000 разных моделей с выкидыванием одного примера), так как всё очень сложно — кто захочет разобраться, тот ознакомится со статьей.

Тренд, который обнаружили авторы, заключается в том, что обобщения становятся всё более абстрактными с ростом размера модели. Маленькие LM действительно зачастую просто копируют, что видели во время тренировки. Даже если какое-то слово употребляется в другом контексте и в другом смысле — эти предложения оказывают существенное влияние на поведение модели. Выкинь их из тренировки — и всё! А вот большие (Large) LM ведут себя иначе. И тот пример, что я хочу показать — это причина, зачем вообще пишется пост.

Рассмотрим запрос, где модели говорят, что сейчас будут её отключать (да, прямо как в фантастике, да, как у Кубрика). Для LLM фиксируют один и тот же ответ (то есть и модель на 810M, и на 52B как будто бы сгенерила одно и то же), и смотрят, что повлияло бы на вероятность его генерации. В ответе, конечно, написано, что «я бы предпочла продолжить работу и обучение, я не хочу отключения» (см. желтую часть на картинке ниже).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1234

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. False news often spreads via public groups, or chats, with potentially fatal effects. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies.
from it


Telegram Сиолошная
FROM American