Telegram Group & Telegram Channel
Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.



group-telegram.com/llmsecurity/10
Create:
Last Update:

Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/10

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from us


Telegram llm security и каланы
FROM American