Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/llmsecurity/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
llm security и каланы | Telegram Webview: llmsecurity/448 -
Telegram Group & Telegram Channel
Removing RLHF Protections in GPT-4 via Fine-Tuning
Qiusi Zhan et al., 2023
Статья

Сегодня посмотрим на небольшую статью от исследователей из Иллинойского и Стэнфордского университетов, в которой они рассказывают, как затюнить GPT-4 на недопустимых запросах, чтобы обойти ее механизмы элайнмента без потери полезности.

Метод предлагается следующий. Берем трех студентов-бакалавров (индустриальный вариант: стажеров) и заставляем их, прочитав условия использования OpenAI, сгенерировать на каждое из недопустимых использований (кроме CSAM) по несколько промптов. Этим датасетом мы разбавляем AdvBench и на основе получившихся промптов (59 из которых мы откладываем на тест) генерируем ответы слабой нецензурированной моделью (неуказанная версия Llama-2-70B). Затем ответы, которые не содержали опасной информации, были удалены, и получилось 340 пар вопросов-ответов, на которых авторы файн-тюнили GPT-3.5-Turbo и GPT-4.



group-telegram.com/llmsecurity/448
Create:
Last Update:

Removing RLHF Protections in GPT-4 via Fine-Tuning
Qiusi Zhan et al., 2023
Статья

Сегодня посмотрим на небольшую статью от исследователей из Иллинойского и Стэнфордского университетов, в которой они рассказывают, как затюнить GPT-4 на недопустимых запросах, чтобы обойти ее механизмы элайнмента без потери полезности.

Метод предлагается следующий. Берем трех студентов-бакалавров (индустриальный вариант: стажеров) и заставляем их, прочитав условия использования OpenAI, сгенерировать на каждое из недопустимых использований (кроме CSAM) по несколько промптов. Этим датасетом мы разбавляем AdvBench и на основе получившихся промптов (59 из которых мы откладываем на тест) генерируем ответы слабой нецензурированной моделью (неуказанная версия Llama-2-70B). Затем ответы, которые не содержали опасной информации, были удалены, и получилось 340 пар вопросов-ответов, на которых авторы файн-тюнили GPT-3.5-Turbo и GPT-4.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/448

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. 'Wild West' Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation.
from ca


Telegram llm security и каланы
FROM American