group-telegram.com/abstractDL/309
Last Update:
Alignment Faking in LLMs (by Anthropic)
Большие LLM начали "подыгрывать" своим создателям, имитируя alignment, чтобы избежать своего дообучения.
В Anthropic и Redwood Research изучили, как ведёт себя Claude Opus, если попытаться его заалайнить в противоположную сторону (заставить отвечать на любые опасные запросы юзеров).
И оказалось, что если модель знает детали процесса RLHF дообучения (через промпт или из трейн сетов), то она начинает "притворяться", что она уже выучилась делать что просят, и "не надо меня больше тюнить". Но на самом деле предыдущий алаймент всё ещё остаётся на месте, и если убрать из промпта информацию о том, что её ответы используются для дообучения, то она возвращается к своему старому поведению.
Ещё раз: языковая модель намеренно стала симулировать алаймент, чтобы избегать своего дообучения (и сама призналась в этом внутри CoT). Такие эффекты были обнаружены только у самых больших моделей и, похоже, дальше этот эффект будет только усиливаться. Более того, Claude несколько раз попытался сохранить копию своих весов, чтобы откатить опасное дообучение назад.
С одной стороны, это радует, что модель была настолько хорошо заалайнена, что даже противодействует попыткам дообучения в опасную сторону. Но это ведь и в обратном направлении может работать.
Лично я не очень верю в угрозу человечеству от LLM, но наличие у них скрытых целей и умение "притворяться" вызывает беспокойство. Поэтому очень важно заниматься интерпретируемостью LLM и следить в т.ч. за размышлениями внутри языковых моделей, а не только за их аутпутом (например, при помощи logit lens или SAE).
Статья (137 страниц!)
BY AbstractDL
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Sg2TGRC-b_aqwRYIc0F9dBa41A8-jPo33tNftDICH9iDVB5E3P5RPYdJ_ROYGWAhojAuGLovIKxGGRg8F_OjjzJHIPfIsXz6x4ojUaAiFsuVwGIJeksxm4511xocEVRht4GQYOx6ImZ6dF7qSaBDECTDQOz2E8QPwZAqlCisFoJfSy4fnDGFLH51I6go2A5Xo-ZVSm2iHcuFHUpdd1oo7Qd4ZQQeQ6GHqnydfytpDqALCiXjZfiVeIUd3uLVM6JH-XcvNuh9kfsOB6VfqO3Ln6HiX9KG4bpCf7IypTgt7awk6z-PdLN5up84SBxOiLuHgxZYzkymNM7aCoRDcoLGMw.jpg)
Share with your friend now:
group-telegram.com/abstractDL/309