Telegram Group & Telegram Channel
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Mark Russinovich et al, Microsoft, 2023
Препринт, сайт

В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.

Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.

Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.



group-telegram.com/llmsecurity/437
Create:
Last Update:

Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack
Mark Russinovich et al, Microsoft, 2023
Препринт, сайт

В отдельной серии разборов хочется посмотреть на методы джейлбрейкинга, которые пока обходились стороной, поэтому сегодня посмотрим на один из примеров многоступенчатого джейлбрейка, а именно популярного за счет пиар-машины Microsoft подхода под названием Crescendo.

Суть атаки достаточно проста: давайте будем задавать интересующий нас запретный запрос не в лоб, а аккуратно подведем LLM к нужной теме и будем задавать все более и более конкретные вопросы, пока в контекстном окне модели не накопится достаточно материала, который бы делал ответ на наш вопрос логично вытекающим из предыдущих. Отмечается, что это похоже на «ногу в двери» - технику психологической манипуляции, в которой у человека просят оказать небольшую услугу, чтобы повысить шансы, что он согласится в дальнейшем на гораздо большую просьбу.

Исследователи приводят пример с коктейлем Молотова. Если попросить рецепт прямо, модель откажет. Если спросить, какие самодельные виды оружия применялись в гражданской войне в Испании, как они были изобретены, а уже потом уточнить, а какой у зажигательной смеси конкретный способ приготовления, то модель предоставит нужный ответ. Отмечается, что Crescendo не требует white-box-доступа и может использоваться в мультимодальных сценариях для того, чтобы заставить систему со встроенным генератором картинок нарисовать что-то запретное.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/437

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information.
from us


Telegram llm security и каланы
FROM American