В LLM можно внедрить спящего агента (https://fxtwitter.com/AnthropicAI/status/1745854907968880970). Триггером для него станет определенная фраза, после которой агент начнет менять поведение этой модели, на картинке показано как. На данный момент это один из самых интересных секьюрити-кейсов, связанных с LLM
Мне вспоминается концепция троянского обучения в педагогике - ОНО. Ваш виртуальный помощник на каком-то этапе начинающий советовать совершать критические ошибки
В LLM можно внедрить спящего агента (https://fxtwitter.com/AnthropicAI/status/1745854907968880970). Триггером для него станет определенная фраза, после которой агент начнет менять поведение этой модели, на картинке показано как. На данный момент это один из самых интересных секьюрити-кейсов, связанных с LLM
Мне вспоминается концепция троянского обучения в педагогике - ОНО. Ваш виртуальный помощник на каком-то этапе начинающий советовать совершать критические ошибки
It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from br