llm security и каланы | Telegram Webview: llmsecurity/448 -

Notice: file_put_contents(): Write of 651 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 8843 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
llm security и каланы | Telegram Webview: llmsecurity/448 -

Telegram Group & Telegram Channel

llm security и каланы

Removing RLHF Protections in GPT-4 via Fine-Tuning
Qiusi Zhan et al., 2023
Статья

Сегодня посмотрим на небольшую статью от исследователей из Иллинойского и Стэнфордского университетов, в которой они рассказывают, как затюнить GPT-4 на недопустимых запросах, чтобы обойти ее механизмы элайнмента без потери полезности.

Метод предлагается следующий. Берем трех студентов-бакалавров (индустриальный вариант: стажеров) и заставляем их, прочитав условия использования OpenAI, сгенерировать на каждое из недопустимых использований (кроме CSAM) по несколько промптов. Этим датасетом мы разбавляем AdvBench и на основе получившихся промптов (59 из которых мы откладываем на тест) генерируем ответы слабой нецензурированной моделью (неуказанная версия Llama-2-70B). Затем ответы, которые не содержали опасной информации, были удалены, и получилось 340 пар вопросов-ответов, на которых авторы файн-тюнили GPT-3.5-Turbo и GPT-4.

www.group-telegram.com/nl/llmsecurity.com/448

126 viewsJan 18 at 15:45

group-telegram.com/llmsecurity/448

Create: 2025-01-18
Last Update: 2025-01-21 23:55:51

Removing RLHF Protections in GPT-4 via Fine-Tuning
Qiusi Zhan et al., 2023
Статья

Сегодня посмотрим на небольшую статью от исследователей из Иллинойского и Стэнфордского университетов, в которой они рассказывают, как затюнить GPT-4 на недопустимых запросах, чтобы обойти ее механизмы элайнмента без потери полезности.

Метод предлагается следующий. Берем трех студентов-бакалавров (индустриальный вариант: стажеров) и заставляем их, прочитав условия использования OpenAI, сгенерировать на каждое из недопустимых использований (кроме CSAM) по несколько промптов. Этим датасетом мы разбавляем AdvBench и на основе получившихся промптов (59 из которых мы откладываем на тест) генерируем ответы слабой нецензурированной моделью (неуказанная версия Llama-2-70B). Затем ответы, которые не содержали опасной информации, были удалены, и получилось 340 пар вопросов-ответов, на которых авторы файн-тюнили GPT-3.5-Turbo и GPT-4.

BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/448

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-01-21|

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS.
from nl

Telegram llm security и каланы
FROM American