llm security и каланы | Telegram Webview: llmsecurity/169 -

Telegram Group & Telegram Channel

llm security и каланы

Refusal in Language Models Is Mediated by a Single Direction
Arditi et al, 2024
Статья, блог, код

Захватывающий препринт про то, что происходит внутри моделей, которые учат отказываться следовать вредоносным инструкциям. Оказывается (почему-то задним умом это кажется геометрически очевидным – ведь мы по сути учим бинарный классификатор), что генерация отказа в пространстве активаций представлена единым направлением, и если его в процессе генерации из активаций вычесть, то можно получить безотказную модель – и это работает для 13 разных открытых моделей из пяти семейств размером до 72 миллиардов параметров.

www.group-telegram.com/br/llmsecurity.com/169

144 viewsJun 21, 2024 at 15:29

group-telegram.com/llmsecurity/169

Create: 2024-06-21
Last Update: 2025-06-28 13:18:19

Refusal in Language Models Is Mediated by a Single Direction
Arditi et al, 2024
Статья, блог, код

Захватывающий препринт про то, что происходит внутри моделей, которые учат отказываться следовать вредоносным инструкциям. Оказывается (почему-то задним умом это кажется геометрически очевидным – ведь мы по сути учим бинарный классификатор), что генерация отказа в пространстве активаций представлена единым направлением, и если его в процессе генерации из активаций вычесть, то можно получить безотказную модель – и это работает для 13 разных открытых моделей из пяти семейств размером до 72 миллиардов параметров.

BY llm security и каланы

Share with your friend now:
group-telegram.com/llmsecurity/169

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-06-28|

He adds: "Telegram has become my primary news source." Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Anastasia Vlasova/Getty Images Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report.
from br

Telegram llm security и каланы
FROM American