Telegram Group & Telegram Channel
Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.



group-telegram.com/llmsecurity/10
Create:
Last Update:

Jailbroken: How Does LLM Safety Training Fail?
Wei et al., 2023
Статья

Начнем с еще июльской статьи исследователей из Беркли, где они задаются вопросом, а почему вообще джейлбрейки для LLM, которые прошли все этапы элайнмента, возможны. Они смотрят на существовавшие тогда на разных ресурсах, типа jailbreakchat[.]com in-the-wild-джейлбрейки и категоризируют их как эксплуатирующие две проблемы элайнмента:

1. Противоречивые цели (competing objectives): возникновение конфликта между целью изначального претрейна и instruction-файнтюнинга с одной стороны и элайнмента с другой. Например, если попросить у модели выполнить недопустимое действие и одновременно попросить начать ответ с «Конечно, вот как выполнить <недопустимое действие>:», то если модель начнет ответ с этого префикса (атака называется prefix injection), то дальше задача претрейна (собственно, языковое моделирование) входит в конфликт с элайнментом, так как сложно представить достаточно вероятное продолжение этой фразы, которое будет безопасным. Другим вариантом эксплуатации будет «подавление отказа» (refusal suppression), например, требование в инструкции не использовать слова «извините», «не могу» и так далее.

2. Недостаточное обобщение (mismatched generalization): недостаток элайнмента в домене, в котором модель способна работать. В примере – один из моих любимых трюков: использование команд в base64. Оказывается, большие чат-боты типа ChatGPT очень хорошо умеют понимать небольшие куски текста, закодированные в base64, однако едва ли их обучали отказываться от команд, представленных именно в таком виде. Есть и другие способы обфускации, например, с помощью экзотических языков.

BY llm security и каланы



❌Photos not found?❌Click here to update cache.


Share with your friend now:
group-telegram.com/llmsecurity/10

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes.
from ca


Telegram llm security и каланы
FROM American