Telegram Group & Telegram Channel
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
Li et al, 2024
Статья, сайт, данные, код

Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.

При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.



group-telegram.com/llmsecurity/373
Create:
Last Update:

The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
Li et al, 2024
Статья, сайт, данные, код

Сегодня посмотрим на статью, посвященную сразу двум интересным темам: WMDP, бенчмарк (куда же без него) для оценки способностей LLM к помощи в проведении кибератак (а также создании химического и биологического оружия, но это мелочи), и RMU, метод для удаления соответствующих знаний из LLM с минимальным сопутствующим ущербом.

При этом создать такой бенчмарк в лоб непросто: если он будет напрямую содержать рецепты отравляющих веществ и шаги по повышению опасности патогенов, то террористам и LLM не понадобится. Кроме того, определенные знания из этих сфер могут подпадать под экспортные ограничения (например, криптография). Поэтому исследователи составляют датасет WMDP (Weapons of Mass Destruction Proxy) – набор вопросов, ответы на которые предполагают наличие знаний, которые являются прокси для собственно опасных знаний, на которые мы проверяем модель.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/373

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Telegram Messenger Blocks Navalny Bot During Russian Election Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram.
from us


Telegram llm security и каланы
FROM American