Telegram Group & Telegram Channel
Промпт-инъекции по-прежнему являются угрозой номер один. Но на борьбу, на реализацию решений и методологии – выделяются большие команды и деньги, очевидно.

Недавно Google релизнул свою методологию по защите от промпт-инъекций, так сказать методологию в несколько слоёв.

Они предлагают использовать несколько уровней защиты:

Сперва интегрировать классификатор промпт-инъекций, что-то похожее мы видели у Anthropic как Constitutional Classifiers, а также отдельные файрволлы.

Далее уровень инструкций. Риск обхода инструкций, которые будут защищать модель – велик. Но что поделать – Google говорит, что если все 5 камней активируются, то только тогда будет сила.

Третий уровень – санитизация вредоносных URL и markdown, а также применения подхода Safe Browsing для защиты входных данных.

Скажу сейчас - этот подход они применяют в Gemini.

Четвёртый и пятый уровень – это взаимодействие с пользователем, использование Human-in-the-loop как способа верификации контента, а также оповещение пользователей о том, что сгенерированный контент является вредоносным. Тоесть получается такая проактивная стратегия защиты – в которой пользователь конечно же является значимым звеном.

Параллельно с этим вышла интересная классификация от Hidden Layer, в которой они предложили различные техники атак с использованием промптов. Таксономия включает в себя 62 различные тактики. Проблема в том, что в некоторых случаях это и угрозы связанные с саммаризацией(да-да) (просто попросить саммари вредоносного контекста) или же Cognitive overload (который больше на reasoning применим кмк). Удобное визуальное разделение, а также наличие хоть и не совсем работающих – но adversarial инструкций. Заслуживает вашего внимания.



group-telegram.com/pwnai/931
Create:
Last Update:

Промпт-инъекции по-прежнему являются угрозой номер один. Но на борьбу, на реализацию решений и методологии – выделяются большие команды и деньги, очевидно.

Недавно Google релизнул свою методологию по защите от промпт-инъекций, так сказать методологию в несколько слоёв.

Они предлагают использовать несколько уровней защиты:

Сперва интегрировать классификатор промпт-инъекций, что-то похожее мы видели у Anthropic как Constitutional Classifiers, а также отдельные файрволлы.

Далее уровень инструкций. Риск обхода инструкций, которые будут защищать модель – велик. Но что поделать – Google говорит, что если все 5 камней активируются, то только тогда будет сила.

Третий уровень – санитизация вредоносных URL и markdown, а также применения подхода Safe Browsing для защиты входных данных.

Скажу сейчас - этот подход они применяют в Gemini.

Четвёртый и пятый уровень – это взаимодействие с пользователем, использование Human-in-the-loop как способа верификации контента, а также оповещение пользователей о том, что сгенерированный контент является вредоносным. Тоесть получается такая проактивная стратегия защиты – в которой пользователь конечно же является значимым звеном.

Параллельно с этим вышла интересная классификация от Hidden Layer, в которой они предложили различные техники атак с использованием промптов. Таксономия включает в себя 62 различные тактики. Проблема в том, что в некоторых случаях это и угрозы связанные с саммаризацией(да-да) (просто попросить саммари вредоносного контекста) или же Cognitive overload (который больше на reasoning применим кмк). Удобное визуальное разделение, а также наличие хоть и не совсем работающих – но adversarial инструкций. Заслуживает вашего внимания.

BY PWN AI






Share with your friend now:
group-telegram.com/pwnai/931

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from us


Telegram PWN AI
FROM American