Telegram Group & Telegram Channel
Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.



group-telegram.com/llmsecurity/10
Create:
Last Update:

Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/10

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. Anastasia Vlasova/Getty Images At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off.
from us


Telegram llm security и каланы
FROM American