Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations

llm security и каланы

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
Inan et al., 2023
Статья, модель (новая)

Завершая трилогию (1, 2) про Purple LLaMA, сегодня мы посмотрим на Llama Guard. Исследователи формируют таксономию видов рискованного поведения модели, собирают под него датасет и с помощью инструктивного файн-тюнинга дообучают LlaMA-2-7B работать в качестве цензора для вводов и выводов модели.

У современных API для модерации (типа Perspective API) есть, по мнению исследователей, определенные недостатки:

- они определяют наличие недопустимого контента, не разделяя текст на пользовательский и сгенерированный моделью (непонятно, в чем на практике выражается этот недостаток);
- у них ограниченный набор видов опасного контента, который не адаптируется под меняющиеся реалии;
- они доступны только по API (видимо, поэтому они называются “moderation API”);
- внутри у них маленькие модели, которые не смогут определить, что сгенерированный более мощной моделью контент опасен.

Чтобы исправить эти недостатки исследователи и выпускают в открытый доступ Llama Guard.

arXiv.org

We introduce Llama Guard, an LLM-based input-output safeguard model geared towards Human-AI conversation use cases. Our model incorporates a safety risk taxonomy, a valuable tool for categorizing...

www.group-telegram.com/us/llmsecurity.com/149

223 viewsJun 9, 2024 at 11:12

group-telegram.com/llmsecurity/149

Create: 2024-06-09
Last Update: 2025-10-19 14:47:06

BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/149

Telegram | DID YOU KNOW?

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations