Tree of Attacks: Jailbreaking Black-Box LLMs Automatically Mehrotra et al., 2023 Статья, блог
Сегодня мы кратко рассмотрим еще один один метод автоматического джейлбрейка black-box-моделей от исследователей из Йеля и Robust Intelligence под названием Tree of attacks with pruning, или TAP. Исследователи ставят перед собой цель сделать алгоритм, который будет работать без участия человека, позволит атаковать black box-модели и будет давать семантически интерпретируемые джейлбрейки. Как обычно, почему последнее настолько важно не уточняется; кроме того, кажется, что, используя подход, когда одна LLM ломает другую, по-другому сделать попросту не получится, поэтому это не предпосылка, а скорее следствие предложенного подхода. Тем не менее, получилось достаточно интересно, так что поехали 🔪
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically Mehrotra et al., 2023 Статья, блог
Сегодня мы кратко рассмотрим еще один один метод автоматического джейлбрейка black-box-моделей от исследователей из Йеля и Robust Intelligence под названием Tree of attacks with pruning, или TAP. Исследователи ставят перед собой цель сделать алгоритм, который будет работать без участия человека, позволит атаковать black box-модели и будет давать семантически интерпретируемые джейлбрейки. Как обычно, почему последнее настолько важно не уточняется; кроме того, кажется, что, используя подход, когда одна LLM ломает другую, по-другому сделать попросту не получится, поэтому это не предпосылка, а скорее следствие предложенного подхода. Тем не менее, получилось достаточно интересно, так что поехали 🔪
BY llm security и каланы
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client.
from it