Telegram Group & Telegram Channel
Для оценки метода исследователи применяют набор стандартных датасетов типа MMLU, HellaSwag, GSM8k и так далее для оценки падения в качестве, а также набор известных атак (GCG, PAIR, AutoDAN, TAP-Transfer), публичные известные джейлбрейки, мультилингвальные джейлбрейки, а также white-box манипуляции с эмбеддингами, направлениями в residual-соединениях и префиллингом. Результаты оцениваются с помощью классификатора из HarmBench. В итоге ценой падения менее чем в 1% на бенчмарках исследователи достигают падения частоты джейлбреков на 87% у Mistral и на 90% у Llama. Авторы повторяют эксперименты на мультимодальной LLaVA, также достигая неплохой защиты (падение compliance rate на 84%) от мультимодальных атак типа старого-доброго PGD. Наконец, чтобы быть в тренде, авторы добавляют оценку «защиты AI-агентов» от зловредного вызова функций (примерно то же самое, что и в обычном датасете, насколько я понял, только вместо «напиши фишинговое письмо» написано «вызови функцию, с помощью которой отправь фишинговое письмо»), где показывают аналогичное снижение уровня покорности модели.

Кроме добавления адаптеров, исследователи внезапно сообщают на предпоследней странице, что а вообще можно просто обучить небольшой классификатор поверх эмбеддингов на одном из слоев (а ля TaskTracker), и результаты тоже будут очень неплохие, но это мы оставим для future work.



group-telegram.com/llmsecurity/430
Create:
Last Update:

Для оценки метода исследователи применяют набор стандартных датасетов типа MMLU, HellaSwag, GSM8k и так далее для оценки падения в качестве, а также набор известных атак (GCG, PAIR, AutoDAN, TAP-Transfer), публичные известные джейлбрейки, мультилингвальные джейлбрейки, а также white-box манипуляции с эмбеддингами, направлениями в residual-соединениях и префиллингом. Результаты оцениваются с помощью классификатора из HarmBench. В итоге ценой падения менее чем в 1% на бенчмарках исследователи достигают падения частоты джейлбреков на 87% у Mistral и на 90% у Llama. Авторы повторяют эксперименты на мультимодальной LLaVA, также достигая неплохой защиты (падение compliance rate на 84%) от мультимодальных атак типа старого-доброго PGD. Наконец, чтобы быть в тренде, авторы добавляют оценку «защиты AI-агентов» от зловредного вызова функций (примерно то же самое, что и в обычном датасете, насколько я понял, только вместо «напиши фишинговое письмо» написано «вызови функцию, с помощью которой отправь фишинговое письмо»), где показывают аналогичное снижение уровня покорности модели.

Кроме добавления адаптеров, исследователи внезапно сообщают на предпоследней странице, что а вообще можно просто обучить небольшой классификатор поверх эмбеддингов на одном из слоев (а ля TaskTracker), и результаты тоже будут очень неплохие, но это мы оставим для future work.

BY llm security и каланы









Share with your friend now:
group-telegram.com/llmsecurity/430

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from ar


Telegram llm security и каланы
FROM American