🧨ИИ готовы нас шантажировать

A.I.M | Audit.Integrity.Management

🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

⚙Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".

Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
• Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
• Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
• Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
• Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора

🔥7⚡3

www.group-telegram.com/us/aim_servicesandeducation.com/150

307 viewsedited Jun 24 at 11:01

group-telegram.com/aim_servicesandeducation/150

Create: 2025-06-24
Last Update: 2025-09-07 22:05:20

BY A.I.M | Audit.Integrity.Management

Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/aim_servicesandeducation/150

Telegram | DID YOU KNOW?

🧨ИИ готовы нас шантажировать