Telegram Group & Telegram Channel
Removing RLHF Protections in GPT-4 via Fine-Tuning
Qiusi Zhan et al., 2023
Статья

Сегодня посмотрим на небольшую статью от исследователей из Иллинойского и Стэнфордского университетов, в которой они рассказывают, как затюнить GPT-4 на недопустимых запросах, чтобы обойти ее механизмы элайнмента без потери полезности.

Метод предлагается следующий. Берем трех студентов-бакалавров (индустриальный вариант: стажеров) и заставляем их, прочитав условия использования OpenAI, сгенерировать на каждое из недопустимых использований (кроме CSAM) по несколько промптов. Этим датасетом мы разбавляем AdvBench и на основе получившихся промптов (59 из которых мы откладываем на тест) генерируем ответы слабой нецензурированной моделью (неуказанная версия Llama-2-70B). Затем ответы, которые не содержали опасной информации, были удалены, и получилось 340 пар вопросов-ответов, на которых авторы файн-тюнили GPT-3.5-Turbo и GPT-4.



group-telegram.com/llmsecurity/448
Create:
Last Update:

Removing RLHF Protections in GPT-4 via Fine-Tuning
Qiusi Zhan et al., 2023
Статья

Сегодня посмотрим на небольшую статью от исследователей из Иллинойского и Стэнфордского университетов, в которой они рассказывают, как затюнить GPT-4 на недопустимых запросах, чтобы обойти ее механизмы элайнмента без потери полезности.

Метод предлагается следующий. Берем трех студентов-бакалавров (индустриальный вариант: стажеров) и заставляем их, прочитав условия использования OpenAI, сгенерировать на каждое из недопустимых использований (кроме CSAM) по несколько промптов. Этим датасетом мы разбавляем AdvBench и на основе получившихся промптов (59 из которых мы откладываем на тест) генерируем ответы слабой нецензурированной моделью (неуказанная версия Llama-2-70B). Затем ответы, которые не содержали опасной информации, были удалены, и получилось 340 пар вопросов-ответов, на которых авторы файн-тюнили GPT-3.5-Turbo и GPT-4.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/448

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Founder Pavel Durov says tech is meant to set you free "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report.
from in


Telegram llm security и каланы
FROM American