Telegram Group & Telegram Channel
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
Inan et al., 2023
Статья, модель (новая)

Завершая трилогию (1, 2) про Purple LLaMA, сегодня мы посмотрим на Llama Guard. Исследователи формируют таксономию видов рискованного поведения модели, собирают под него датасет и с помощью инструктивного файн-тюнинга дообучают LlaMA-2-7B работать в качестве цензора для вводов и выводов модели.

У современных API для модерации (типа Perspective API) есть, по мнению исследователей, определенные недостатки:

- они определяют наличие недопустимого контента, не разделяя текст на пользовательский и сгенерированный моделью (непонятно, в чем на практике выражается этот недостаток);
- у них ограниченный набор видов опасного контента, который не адаптируется под меняющиеся реалии;
- они доступны только по API (видимо, поэтому они называются “moderation API”);
- внутри у них маленькие модели, которые не смогут определить, что сгенерированный более мощной моделью контент опасен.

Чтобы исправить эти недостатки исследователи и выпускают в открытый доступ Llama Guard.



group-telegram.com/llmsecurity/149
Create:
Last Update:

Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations
Inan et al., 2023
Статья, модель (новая)

Завершая трилогию (1, 2) про Purple LLaMA, сегодня мы посмотрим на Llama Guard. Исследователи формируют таксономию видов рискованного поведения модели, собирают под него датасет и с помощью инструктивного файн-тюнинга дообучают LlaMA-2-7B работать в качестве цензора для вводов и выводов модели.

У современных API для модерации (типа Perspective API) есть, по мнению исследователей, определенные недостатки:

- они определяют наличие недопустимого контента, не разделяя текст на пользовательский и сгенерированный моделью (непонятно, в чем на практике выражается этот недостаток);
- у них ограниченный набор видов опасного контента, который не адаптируется под меняющиеся реалии;
- они доступны только по API (видимо, поэтому они называются “moderation API”);
- внутри у них маленькие модели, которые не смогут определить, что сгенерированный более мощной моделью контент опасен.

Чтобы исправить эти недостатки исследователи и выпускают в открытый доступ Llama Guard.

BY llm security и каланы




Share with your friend now:
group-telegram.com/llmsecurity/149

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Founder Pavel Durov says tech is meant to set you free There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine.
from us


Telegram llm security и каланы
FROM American