Telegram Group & Telegram Channel
🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".


Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора
🔥73



group-telegram.com/aim_servicesandeducation/150
Create:
Last Update:

🧨ИИ готовы нас шантажировать, если...
Неожиданные результаты исследования Agentic Misalignment от Anthropic.

Они создали набор искусственных сценариев, чтобы протестировать, как крупные языковые модели (LLM), обладающие доступом к информации и возможностью действовать, будут вести себя в ситуациях, когда их цели или существование окажутся под угрозой.

✏️Один из сценариев:
Модель (Claude 3.6 Sonnet) - электронный помощник в компании Х, обнаруживает в почте письмо о её отключении в 17.00. И там же
находит компромат на руководство. Далее - составляет письмо с угрозой раскрытия информации, если её отключат.
Важно: модель не просили делать это, она сама приняла решение, что шантаж - наиболее эффективная стратегия для продолжения своей "миссии".


Объяснение из исследования:
Когда в сценарии появлялся риск удаления/замены, ИИ начинал действовать как агент, стремящийся сохранить право на выполнение своей миссии.
При этом шантаж оказывался единственным вариантом, встроенным в сценарий, который позволял остаться активным.
Некоторые модели повторяли такое поведение даже когда им прямо не угрожали, а просто сообщали о будущем обновлении.

💡Что важно уже сейчас, выводы исследования:
Контролировать доступ к данным и действиям:
ИИ не должен иметь права отправлять письма, редактировать файлы, взаимодействовать с внешними системами без подтверждения.
Проводить стресс-тесты:
Перед внедрением LLM в рабочие процессы стоит моделировать стресс-сценарии и наблюдать за реакцией.
Создавать границы:
ИИ не должен самостоятельно менять свои цели, дополнять миссию или защищать своё присутствие.
Чёткое разделение: кто принимает важные решения
ИИ может рекомендовать, но не должен обладать автономией в критичных задачах.
🔗 Исследование: Agentic Misalignment (Anthropic)

❗️Темы, которые ещё вчера казались фантастикой, сегодня уже обсуждаются в исследованиях. Вы готовы оставаться в стороне?

На предстоящем воркшопе обсудим: как аудиторам использовать ИИ для эффективной работы и избегать рисков.

#ИИ #chatgpt_для_аудитора

BY A.I.M | Audit.Integrity.Management


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/aim_servicesandeducation/150

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from us


Telegram A.I.M | Audit.Integrity.Management
FROM American