Defending Against Indirect Prompt Injection Attacks With Spotlighting

llm security и каланы

Defending Against Indirect Prompt Injection Attacks With Spotlighting
Keegan Hines et al, Microsoft, 2024
Препринт

Непрямая инъекция промпта (indirect prompt injection) – атака, при которой инструкции LLM перезаписываются внешними (3rd party) документами, подгружающимися из недоверенных источников в ее контекст для выполнения задачи. Это основной вектор атак на LLM-приложения, который исследуется: инъекции засовывают в письма, на сайты, в историю переписок, в скриншоты и так далее. Происходит это потому, что у в LLM не хватает четкого разделения между данными и инструкциями – все валяется в одном контекстном окне вперемешку.

Исследователи из Microsoft предлагают в небольшой статье несколько эвристик, которые призваны улучшить это разделение и снизить подверженность ваших систем атакам с непрямыми инъекциями (их в статье называют XPIA) под общим называнием spotlighting.

arXiv.org

Large Language Models (LLMs), while powerful, are built and trained to process a single text input. In common applications, multiple inputs can be processed by concatenating them together into a...

www.group-telegram.com/br/llmsecurity.com/385

267 viewsedited Dec 11 at 19:42

group-telegram.com/llmsecurity/385

Create: 2024-12-11
Last Update: 2025-01-24 11:30:30

BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/385

Telegram | DID YOU KNOW?

Defending Against Indirect Prompt Injection Attacks With Spotlighting