Окей, челикс из твиттора джейлбрейкнул Claude Sonnet 3.5, то есть после этого она может вам рассказать про все запрещенные вещи и обматерить попутно. 😨
В системном промпте нужно написать всего 11 слов или 98 символов:
Вообще забавно видеть, какие креативные промпты можно придумать, чтобы разлочить модель. Причем на новом Клоде предыдущие джейлбрейки, конечно же, не работали – их разрабы заранее пофиксили тренировкой на контрпримерах, но всегда находится новая лазейка.
Возможно ли вообще при текущем состоянии развития LLM полностью обезопаситься от джелбрейков модели? Я думаю, что нет. Как говорится, даже в самом продвинутом AI найдется код, написанный стажером в пятницу вечером😂
Окей, челикс из твиттора джейлбрейкнул Claude Sonnet 3.5, то есть после этого она может вам рассказать про все запрещенные вещи и обматерить попутно. 😨
В системном промпте нужно написать всего 11 слов или 98 символов:
Вообще забавно видеть, какие креативные промпты можно придумать, чтобы разлочить модель. Причем на новом Клоде предыдущие джейлбрейки, конечно же, не работали – их разрабы заранее пофиксили тренировкой на контрпримерах, но всегда находится новая лазейка.
Возможно ли вообще при текущем состоянии развития LLM полностью обезопаситься от джелбрейков модели? Я думаю, что нет. Как говорится, даже в самом продвинутом AI найдется код, написанный стажером в пятницу вечером😂
Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from ru