AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024 Статья, код
Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?
Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024 Статья, код
Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?
Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.
Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp.
from hk