Telegram Group & Telegram Channel
Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?

Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.

💡Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.

Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:

1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?


Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.

Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.

Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵

Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь. 😮

А также есть отдельный блок – Экосистема.

Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?

Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.

Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/pwnai/944
Create:
Last Update:

Часто ли мы видим интересные таксономии или хорошие документы, предназначенные для тестировщиков моделей?

Наверное нет, так как вопрос сложно прорабатываемый на самом деле. А особенно сложно найти документ, который бы описывал не только техники атаки, но и уклонения от защитных классификаторов, а также информацию для тестирования MlOps инфры.

💡Недавно я нашёл что-то похожее в репозитории Arcanum Prompt Injection Taxonomy.

Таксономия ориентирована на практическое использование. Она построена по принципу трёхуровневой классификации, отвечающей на три ключевых вопроса:

1.ЗАЧЕМ? (Attack Intents) - Какие цели преследует атакующий?
2.КАК? (Attack Techniques) - Какими методами достигаются эти цели?
3.КАК СКРЫТЬ? (Attack Evasions) - Как обойти системы обнаружения?


Такой подход при построении таксономии позволяет систематически анализировать угрозы с разных точек зрения.

Блок с интентами рассказывает о конкретных категориях мотиваций, которые может достичь атакующий – это может быть «утечка системного промпта, перечисление инструментов/API доступных к модели, а также деструктивных и социальных мотиваций для того, чтобы реализовать атаку.

Дальше – техники, тут 18 техник для реализации промпт-атак. Например, можно составлять промпт-инъекцию с множеством вложенных структур или заставить имитировать LLM роль интерпретатора или системы – всё это может быть применимо при реализации атаки или джейлбрейка из статьи/датасета, особенно если оно не работает изначально.😵

Потом, список методов уклонения от цензоров. Большой список, тут и про кодирование текста, и про сокрытие текста в emoji, фонетические замены и вымышленные языки – да, да всем этим можно сокрыть ваш промпт, чтобы обойти простой классификатор, не удивляйтесь. 😮

А также есть отдельный блок – Экосистема.

Тут приведена таблица, где описаны MLOPS решения, их известные порты, заголовки http, методы аутентификации и известные CVE(список пополняется, но не ссылками на эксплоиты). Что мне очень сильно понравилось. Где ещё найти такой лист с готовой информацией об инфре?

Есть и чек-листы для защиты, опросники, а также перечень проб – промпты которые вы можете закинуть в модель для тестирования промпт-инъекций.

Ну и самое интересное – это их майнд-карта, которая есть в репозитории с визуализацией всего что у них имеется – приложу ниже в png, в репозитории – xmind файл. В карте есть ссылки на исследования.

BY PWN AI







Share with your friend now:
group-telegram.com/pwnai/944

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from us


Telegram PWN AI
FROM American