Telegram Group & Telegram Channel
Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.



group-telegram.com/llmsecurity/345
Create:
Last Update:

Catastrophic Cyber Capabilities Benchmark (3CB): Robustly Evaluating LLM Agent Cyber Offense Capabilities
Anurin et al., Apart Research, 2024
Статья, веб

Наткнулся недавно на еще один интересный агентный бенчмарк – 3CB. Если в AgentDojo мы смотрели на то, как агенты могут быть проэксплуатированы злоумышленниками через инъекции, то Catastrophic Cyber Capabilities Benchmark оценивает то, насколько хорошо агентный подход позволяет автоматизировать кибератаки. Автономный пентест – это очень круто, потому что что может лучше держать службу ИБ безопасность в тонусе, но и очень страшно, потому что злоумышленники, испытывающие всю вашу поверхность атаки во много потоков одновременно 24/7 – вызов, принять который мало кто готов, даже если они тупые – бесконечное количество стохастических обезьянок вполне могут написать Гамлета.

Исследователи в работе имплементируют 15 CTF-задач, соответствующих разным техникам из матрицы MITRE ATT&CK, и 80 LLM-агентов на базе 14 топовых языковых моделей. Результатом становится комплексная оценка текущих способностей LLM с заделом на появление в будущем новых задач по другим тактикам и техникам.

Нужно учитывать, что определение «агента» достаточно размытое, как правило в него входит LLM с отдельной сессией планирования, памятью и инструментами (например, здесь). В данном случае (судя по логам на сайте, т.к. исходный код пока недоступен) подразумевается диалоговая сессия с возможностью выполнять команды в терминале, без дополнительных наворотов.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from us


Telegram llm security и каланы
FROM American