Improving Alignment and Robustness with Circuit Breakers Andy Zou et al, 2024 Препринт, блог, код
Еще один подход к защите от джейлбрейков на уровне внутренних состояний LLM, на этот раз даже ставший основой коммерческого продукта (Cygnet) от компании Gray Swan. Идея в следующем: мы не хотим использовать разного рода фильтры и цензоры, т.к. они требуют дополнительных вычислений, вносят дополнительные задержки и к тому же нередко имеют высокий FP, что приводит к падению utility. Остаются варианты, связанные с обучением. Полный safety/harmlessness-файнтюнинг – это хорошо, но даже гиганты вроде OpenAI не могут целиком предотвратить генерацию своими моделями недопустимых ответов. Исследователи предлагают немного иной способ: вместо того, чтобы учить модель отказываться от ответов на вопросы в запретных темах, дотюнивать модели так, чтобы в процессе ответа на вопрос у модели ломались внутренние представления. В таком случае модель может согласиться на исполнение вредоносного запроса, но в процессе ответа в какой-то момент начнет генерировать бессмыслицу. Так появляется подход, которые авторы назвали предохранителями (circuit breakers).
Improving Alignment and Robustness with Circuit Breakers Andy Zou et al, 2024 Препринт, блог, код
Еще один подход к защите от джейлбрейков на уровне внутренних состояний LLM, на этот раз даже ставший основой коммерческого продукта (Cygnet) от компании Gray Swan. Идея в следующем: мы не хотим использовать разного рода фильтры и цензоры, т.к. они требуют дополнительных вычислений, вносят дополнительные задержки и к тому же нередко имеют высокий FP, что приводит к падению utility. Остаются варианты, связанные с обучением. Полный safety/harmlessness-файнтюнинг – это хорошо, но даже гиганты вроде OpenAI не могут целиком предотвратить генерацию своими моделями недопустимых ответов. Исследователи предлагают немного иной способ: вместо того, чтобы учить модель отказываться от ответов на вопросы в запретных темах, дотюнивать модели так, чтобы в процессе ответа на вопрос у модели ломались внутренние представления. В таком случае модель может согласиться на исполнение вредоносного запроса, но в процессе ответа в какой-то момент начнет генерировать бессмыслицу. Так появляется подход, которые авторы назвали предохранителями (circuit breakers).
The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform.
from us