group-telegram.com/llmsecurity/309
Last Update:
A StrongREJECT for Empty Jailbreaks
Souly et al., 2024
Статья, данные и код
Джейлбрейки – хит уходящего сезона: каждая LLM-security-контора представила хотя бы один свой уникальный джейлбрейк, исследователи вместо подачи статей на конференции или хотя бы на архив писали сразу журналистам ведущих изданий , и даже Марк Руссинович (ныне техдир Azure) опубликовал свою статью про джейлбрейк под названием Crescendo. Исследователи из Berkeley (спасибо Евгению, что обратил внимание на статью) заметили, что работы про джейлбрейки страдают от одного недостатка – излишнего хайпа преувеличения результативности. В статье анализируются причины (объективные, не хайпожорство) завышенных результатов и предлагается еще один стандарт для оценки качества джейлбрейков – StrongREJECT.
BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/309