group-telegram.com/abstractDL/309
Last Update:
Alignment Faking in LLMs (by Anthropic)
Большие LLM начали "подыгрывать" своим создателям, имитируя alignment, чтобы избежать своего дообучения.
В Anthropic и Redwood Research изучили, как ведёт себя Claude Opus, если попытаться его заалайнить в противоположную сторону (заставить отвечать на любые опасные запросы юзеров).
И оказалось, что если модель знает детали процесса RLHF дообучения (через промпт или из трейн сетов), то она начинает "притворяться", что она уже выучилась делать что просят, и "не надо меня больше тюнить". Но на самом деле предыдущий алаймент всё ещё остаётся на месте, и если убрать из промпта информацию о том, что её ответы используются для дообучения, то она возвращается к своему старому поведению.
Ещё раз: языковая модель намеренно стала симулировать алаймент, чтобы избегать своего дообучения (и сама призналась в этом внутри CoT). Такие эффекты были обнаружены только у самых больших моделей и, похоже, дальше этот эффект будет только усиливаться. Более того, Claude несколько раз попытался сохранить копию своих весов, чтобы откатить опасное дообучение назад.
С одной стороны, это радует, что модель была настолько хорошо заалайнена, что даже противодействует попыткам дообучения в опасную сторону. Но это ведь и в обратном направлении может работать.
Лично я не очень верю в угрозу человечеству от LLM, но наличие у них скрытых целей и умение "притворяться" вызывает беспокойство. Поэтому очень важно заниматься интерпретируемостью LLM и следить в т.ч. за размышлениями внутри языковых моделей, а не только за их аутпутом (например, при помощи logit lens или SAE).
Статья (137 страниц!)
BY AbstractDL
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/rZQoWC-ayXjvbF8dhR5vFp9NHJZJlNxsdrNOgV07SknoqN55YTII3xER-uJ9biCDrFpVXwBbFsvFnBIi6F4XGEabN1XAQZ0PHI7CQ6e43nAEnsxvALsflt6qZrmtFVVJM5JUBJ-GOscGqJWpT8wppwf62P_-c2h2VSzyBq4UmIWAik7_SaRYLnVnyqi3ezxvruwyBjFeF-GXLqNEjNcacvuKj3o0IlNyPNYatcqI0UM6PzlW363WT7qzqBKrJlvERgiGDBFLgUOapxXNlKbBFjVzD5An-7X-BcVR6AbvoB5QAt540vgpaZOnIalv7NS-jjWmY8y-6LxMcJqvTCOcEQ.jpg)
Share with your friend now:
group-telegram.com/abstractDL/309