Telegram Group & Telegram Channel
Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.



group-telegram.com/llmsecurity/537
Create:
Last Update:

Исследователи рассматривают еще несколько кейсов – атаки на классификаторы изображений, отравление данных, бэкдоры – смысла их пересказывать отдельно, наверное, нет, как и пытаться запихнуть в телеграм-пост пятидесятистраничную статью, которую я очень рекомендую к прочтению целиком, так как там есть еще много интересных вопросов (можно ли получить ортогональные активации при сохранении поведения?) и ответов на них (видимо, нет). Так или иначе, она показывает, в первую очередь, что методы защиты на базе внутренних представлений достаточно эффективны, если не пытаться их целенаправленно обойти. Если же пытаться – то тут могут помочь только достаточно продвинутые и вычислительно сложные способы, вроде SAE-мониторинга сразу на нескольких десятках слоев, что неминуемо приведет к падению utility. Кроме прочего, статья показывает, что мы достаточно мало знаем о том, как устроены (и насколько эффективно используются) внутренние активации, и что средства из арсенала mechanistic interpretability могут быть очень полезны при исследованиях безопасности.

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/537

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram.
from us


Telegram llm security и каланы
FROM American