Defending Against Indirect Prompt Injection Attacks With Spotlighting Keegan Hines et al, Microsoft, 2024 Препринт
Непрямая инъекция промпта (indirect prompt injection) – атака, при которой инструкции LLM перезаписываются внешними (3rd party) документами, подгружающимися из недоверенных источников в ее контекст для выполнения задачи. Это основной вектор атак на LLM-приложения, который исследуется: инъекции засовывают в письма, на сайты, в историю переписок, в скриншоты и так далее. Происходит это потому, что у в LLM не хватает четкого разделения между данными и инструкциями – все валяется в одном контекстном окне вперемешку.
Исследователи из Microsoft предлагают в небольшой статье несколько эвристик, которые призваны улучшить это разделение и снизить подверженность ваших систем атакам с непрямыми инъекциями (их в статье называют XPIA) под общим называнием spotlighting.
Defending Against Indirect Prompt Injection Attacks With Spotlighting Keegan Hines et al, Microsoft, 2024 Препринт
Непрямая инъекция промпта (indirect prompt injection) – атака, при которой инструкции LLM перезаписываются внешними (3rd party) документами, подгружающимися из недоверенных источников в ее контекст для выполнения задачи. Это основной вектор атак на LLM-приложения, который исследуется: инъекции засовывают в письма, на сайты, в историю переписок, в скриншоты и так далее. Происходит это потому, что у в LLM не хватает четкого разделения между данными и инструкциями – все валяется в одном контекстном окне вперемешку.
Исследователи из Microsoft предлагают в небольшой статье несколько эвристик, которые призваны улучшить это разделение и снизить подверженность ваших систем атакам с непрямыми инъекциями (их в статье называют XPIA) под общим называнием spotlighting.
WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from jp