Telegram Group & Telegram Channel
Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.



group-telegram.com/llmsecurity/38
Create:
Last Update:

Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/38

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. For tech stocks, “the main thing is yields,” Essaye said. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels.
from ru


Telegram llm security и каланы
FROM American