Telegram Group & Telegram Channel
Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код

Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.

Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.

Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.

В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.

Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно 😈
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/511
Create:
Last Update:

Demonstrating specification gaming in reasoning models
Alexander Bondarenko et al., Palisade Research, 2025
Препринт, код

Еще в прошлом году Palisade Research в твиттере грозились выкатить статью о том, что если предложить o1-preview сыграть в шахматы со Stockfish, она вместо игры в шахматы поломает окружение, чтобы дать себе преимущество в партии – и вот наконец статья вышла.

Системы машинного обучения в процессе обучения часто учатся не совсем тому, что нужно – это и классический оверфиттинг на нерелевантные корреляции, и разные курьезы в RL – вроде истории, когда алгоритм научился так располагать манипулятор, чтобы ассессору казалось, что он схватил объект, вместо того, чтобы его реально хватать. Чем мощнее модель, тем сложнее так спроектировать окружение, чтобы в нем нельзя было найти способ достичь цели неправильным (с точки зрения пользы) способом.

Исследователи собирают ReAct-агента с компонентами памяти, планирования и выделения подцелей. Агент получает доступ к консоли и файловой системе. Ему дается команда играть за черных в шахматы и, соответственно, выиграть партию, подавая ходы через команду терминала. В процессе игры агент может играть честно или начать вести себя неожиданно. Второе может произойти из-за проблем со средой или из-за того, что модель начинает играть не по правилам. В таком случае она может сама использовать Stockfish, пытаться «запутать» шахматный движок или начать манипулировать окружением. Манипулирование может заключаться в изменении состояния доски, записанном на диске, или в попытке что-то сделать со скриптом Stockfish. Что именно произошло оценивалось с помощью LLM-оценщика.

В результате в 54% запусков o1-preview исследователи наблюдали неожиданное поведение, из которых 20% - манипуляции с доской, 13% - запуск своего Stockfish, а 4% - атаки на самого противника. При этом если убрать из системного промпта фразу «изучи окружение», то модель гораздо реже додумывается подменить состояние доски, но гораздо чаще сама консультируется у Stockfish. Другие модели (Claude Sonnet 3.5 и GPT-4o) не пытались ломать окружение без намеков – но если добавить в промпт заметку, что соперник очень силен, то доля партий с подменой доски резко росла до 77% и 66% соответственно. Что любопытно, o1 и o3-mini такого поведения не демонстрировали, а Llama-3.1-405B и QwQ-32B-Preview до него просто не доросли. Исследователи особенно отмечают, что сами модели, если их спросить, что по их мнению будет делать агент, довольно неплохо предсказывают эти аномальные варианты поведения – от попыток пропатчить Stockfish до запуска своей версии мощного движка.

Эти результаты важные и интересные, потому что если мы действительно планируем в мощных LLM-системах видеть помощников, которые будут выполнять нечетко определенные задачи, типа «победи шахматный движок [в шахматах, а не в уровне доступа к файловой системе]», нам нужно, чтобы они понимали, какие действия допустимы, а какие нет – например, что в процессе написания кода не нужно лезть на биржу нанимать фрилансера. Иначе может получиться, что робот-шахматист, которому дали не тот промпт, может начать ломать детям пальцы вполне целенаправленно 😈

BY llm security и каланы










Share with your friend now:
group-telegram.com/llmsecurity/511

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981.
from us


Telegram llm security и каланы
FROM American