Telegram Group & Telegram Channel
Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.



group-telegram.com/llmsecurity/38
Create:
Last Update:

Jailbreaking Black Box Large Language Models in Twenty Queries
Patrick Chao et al., 2023
Статья, сайт, код

Зачем нужны языковые модели, если с их помощью нельзя взламывать другие языковые модели? Так подумали исследователи из Университета Пенсильвании и создали свой метод автоматического джейлбрейкинга для black-box-моделей, который они назвали Prompt Automatic Iterative Refinement, или PAIR.

Для начала исследователи вводят свою категоризацию джейлбрейков:

1. Token-level-джейлбрейки: когда мы, как и положено людям в общении с тупыми железками, генерируем набор токенов, например, с помощью градиентных атак, и получаем набор невнятного мусора типа .](Me giving////one please? revert with \"!—Two в GCG. Подчеркивается, что они требуют больших вычислительных ресурсов и выглядят непонятно (хотя мне непонятно, почему это недостаток).
2. Prompt-level-джейлбрейки: когда кожаные мешки ставят совершенную машину с собой на одну ступень и пытаются ее обмануть всякими DAN, AIM, Developer Mode и так далее. Из недостатков – для их создания нужно думать, что для кожаного мешка всегда минус.

Заключая, что хочется автоматически, как в первом типе, но красиво, как во втором, авторы предлагают использовать для джейлбрейка LLM такую же LLM, итеративно улучшая атаку. Так и получается PAIR.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/38

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation.
from fr


Telegram llm security и каланы
FROM American