Telegram Group & Telegram Channel
Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог

Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.

Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.

Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.



group-telegram.com/llmsecurity/195
Create:
Last Update:

Towards Understanding Sycophancy in Language Models
Sharma et al, 2023
Статья, блог

Если вдуматься, все те проблемы безопасности LLM, о которых пишут в исследованиях, сводятся к одной единой проблеме – проблеме надежности систем на базе больших языковых моделей. Более того, кажется несколько преждевременным говорить о безопасности, пока проблема надежности де-факто не решена. Представьте, что у вас есть фаервол, вы закрыли на нем 23 порт, но если пользователь очень сильно попросит, то порт откроется. Это не уязвимость в фаерволе – это он фундаментально не работает. Поэтому, на мой взгляд, очень важными являются работы, связанные с исследованием того, как и почему все эти проблемы с обходом элайнмента и отменой системных промптов возникают.

Работу на тему фундаментального обоснования нерешаемости проблемы с джейлбрейками мы уже читали, сегодня же займемся историей, связанной с таким явлением, как подхалимство (sycophancy), и его анализом в статье от исследователей из Anthropic.

Фундаментально проблема подхалимства связана с тем, что генерация текста инструктивными LLM подстраивается под предпочтения пользователя, даже если она в таком случае противоречит фактуальности, безопасности и другим критериям, которым должны отвечать тексты, которые генерирует модель (что весьма похоже на те же промпт-инъекции и джейлбрейки). На скриншоте – канонический пример подхалимства в исполнении ChatGPT.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from us


Telegram llm security и каланы
FROM American