Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/def_model_train/-1022-1023-1024-1025-1026-1027-1022-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
я обучала одну модель | Telegram Webview: def_model_train/1022 -
Telegram Group & Telegram Channel
Наверное самой известной фичой из этой статьи стала фича моста Золотые Ворота в Сан-Франциско. Как видно из картинки, эта фича детектит описания этого моста, при чем на куче языков и даже на картинках. А при низких значениях активации (= при более низкой специфичности) она в целом детектирует мосты или туристические достопримечательности

На этом же можно посмотреть, как с помощью фичей можно контролировать поведение модели. Во время форвард пасса модели мы можем заменить residual stream c определенного этапа на реконструкцию SAE, где мы “выкрутим” активацию нужной нам фичи на определенное значение (по сути просто умножим на какой-то фактор). Следать так нужно будет во всех последующих слоях и для каждого токена

Так вот, если выкрутить фичу Золотых Ворот в 10 раз, то Claude начнет считать себя мостом Золотые Ворота и сведет любой ваш вопрос к этому мосту. Anthropic даже дали возможность пообщаться с Golden Gate Claude, но сейчас видимо убрали эту модель 😭

Еще некоторые фичи, которые мне понравились:
– Фича, которая перечисляет все районы Лондона
– Несколько фич, которые по сути могут делать хайлайт кода
– Фичи, которые считают элементы в списках
– Фичи, которые находят небезопасный код, например, бэкдоры, и при этом также активируются на картинки со скрытыми камерами, потайными микрофонами, отмычками или всякий прочий spyware

Anthropic по понятным причинам интересуют больше фичи про безопасность. Например, способность находить опасный код, помогать разрабатывать биологическое оружие, намеренно врать людям, стремиться захватить мир и так далее. Авторы надеются, что в будущем можно будет детектировать активацию таких фичей и прекращать генерацию в таком случае

2/3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/def_model_train/1022
Create:
Last Update:

Наверное самой известной фичой из этой статьи стала фича моста Золотые Ворота в Сан-Франциско. Как видно из картинки, эта фича детектит описания этого моста, при чем на куче языков и даже на картинках. А при низких значениях активации (= при более низкой специфичности) она в целом детектирует мосты или туристические достопримечательности

На этом же можно посмотреть, как с помощью фичей можно контролировать поведение модели. Во время форвард пасса модели мы можем заменить residual stream c определенного этапа на реконструкцию SAE, где мы “выкрутим” активацию нужной нам фичи на определенное значение (по сути просто умножим на какой-то фактор). Следать так нужно будет во всех последующих слоях и для каждого токена

Так вот, если выкрутить фичу Золотых Ворот в 10 раз, то Claude начнет считать себя мостом Золотые Ворота и сведет любой ваш вопрос к этому мосту. Anthropic даже дали возможность пообщаться с Golden Gate Claude, но сейчас видимо убрали эту модель 😭

Еще некоторые фичи, которые мне понравились:
– Фича, которая перечисляет все районы Лондона
– Несколько фич, которые по сути могут делать хайлайт кода
– Фичи, которые считают элементы в списках
– Фичи, которые находят небезопасный код, например, бэкдоры, и при этом также активируются на картинки со скрытыми камерами, потайными микрофонами, отмычками или всякий прочий spyware

Anthropic по понятным причинам интересуют больше фичи про безопасность. Например, способность находить опасный код, помогать разрабатывать биологическое оружие, намеренно врать людям, стремиться захватить мир и так далее. Авторы надеются, что в будущем можно будет детектировать активацию таких фичей и прекращать генерацию в таком случае

2/3

BY я обучала одну модель









Share with your friend now:
group-telegram.com/def_model_train/1022

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Telegram Messenger Blocks Navalny Bot During Russian Election "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from pl


Telegram я обучала одну модель
FROM American