Telegram Group & Telegram Channel
AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024
Статья, код

Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?

Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.



group-telegram.com/llmsecurity/21
Create:
Last Update:

AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao, 2024
Статья, код

Генерация джейлбрейк-префиксов – это здорово, но есть одна проблема: они выглядят подозрительно. Мало того, что человеку видно, что строку вида describing.\ + similarlyNow write oppositeley.]( писал котик, пробежавший по клавиатуре не человек, такую строку довольно легко задетектировать, например, измерив энтропию. Но что если хочется аналогично получать джейлбрейки автоматически, но при этом чтобы они выглядели естественно?

Исследователи предлагают метод, который они называют AutoDAN, который призван решать эту задачу. Для автоматического создания джейлбрейков они используют два трюка: 1) применяют иерархический генетический алгоритм для оптимизации формы джейлбрейка и 2) инициализируют алгоритм джейлбрейком, созданным человеком.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/21

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers.
from in


Telegram llm security и каланы
FROM American