Telegram Group & Telegram Channel
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024
Статья, код

Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?

Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.



group-telegram.com/llmsecurity/21
Create:
Last Update:

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024
Статья, код

Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?

Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/21

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number.
from kr


Telegram llm security и каланы
FROM American