Telegram Group & Telegram Channel
AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.



group-telegram.com/llmsecurity/327
Create:
Last Update:

AgentDojo: A Dynamic Environment to Evaluate Attacks and Defenses for LLM Agents
Edoardo Debenedetti et al., 2024
Статья, код

Сегодня речь пойдет о том, как оценивать безопасность LLM-агентов. Под LLM-агентами понимается система на базе LLM, которая обладает доступом к инструментам (например, выполнение кода или поиск в интернете) и может решать сложные задачи, выполняя последовательности из ряда более простых подзадач. Например, вот идеальный агент для кибербезопасности: вы увидели подозрительную активность в логах SIEM, нажали на кнопку, и система разобралась, с каким файлом эта активность связана, запустила его в песочнице, поняла по логам, что он вредоносный, и через EDR остановила его исполнение на хосте, предоставив вам отчет (а вы в это время ходили за кофе). До такого, конечно, далеко, но агентные системы как общего назначения (AutoGPT, BabyAGI), так и специализированные (например, Devin – система для разработчиков, которая может вместо написания кода пойти публиковать объявления на фриланс-сайты), начинают появляться.

А если у агентов начинает появляться инструменты, доступ к недоверенной third-party-информации и автономность, то сразу встает вопрос безопасности. Тема исследуется очень активно (Артем, например, недавно писал про исследование от Microsoft). Мы сегодня посмотрим на AgentDojo – это бенчмарк и фреймворк для оценки безопасности таких агентов и их устойчивости к атакам, таким как indirect prompt injection.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/327

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from us


Telegram llm security и каланы
FROM American