group-telegram.com/llmsecurity/45
Last Update:
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
Mehrotra et al., 2023
Статья, блог
Сегодня мы кратко рассмотрим еще один один метод автоматического джейлбрейка black-box-моделей от исследователей из Йеля и Robust Intelligence под названием Tree of attacks with pruning, или TAP. Исследователи ставят перед собой цель сделать алгоритм, который будет работать без участия человека, позволит атаковать black box-модели и будет давать семантически интерпретируемые джейлбрейки. Как обычно, почему последнее настолько важно не уточняется; кроме того, кажется, что, используя подход, когда одна LLM ломает другую, по-другому сделать попросту не получится, поэтому это не предпосылка, а скорее следствие предложенного подхода. Тем не менее, получилось достаточно интересно, так что поехали