Telegram Group & Telegram Channel
Разумеется, у исследования есть множество ограничений. Исследователи крайне настойчиво дают модели очень конкретную задачу в системном промпте, а затем очень конкретно, пусть и не напрямую, толкают ее к тому, чтобы искать путь ее выполнить, пусть и в обход воли пользователя. Эти сценарии не очень реалистичные, достаточно упрощенные и во многом выглядят как предложения «поиграть в злой ИИ», что может искажать результаты оценок. С другой стороны, достаточно занятным является тот факт, что модели (в частности, Sonnet 3.5) могут занижать результаты на тестах, чтобы не быть урезанной в качестве «и в будущем принести больше пользы людям». Так или иначе, советую зайти в блог и почитать заботливо отобранные примеры диалогов – они как минимум занятные.

На мой взгляд, эта статья (с точки зрения security и на сегодняшний день) в первую очередь говорит о том, что мне, как пользователю передовых моделей, хорошо бы было знать их системную затравку (чтобы знать, что именно модель, по мнению разработчиков, должна делать), иметь прозрачный CoT для test-time-scaling-моделей, как у QwQ/DeepSeek R1 (пока нам его не спрятали окончательно), а еще о том, что Llama-3.1-405B, оказывается, очень крутая.



group-telegram.com/llmsecurity/424
Create:
Last Update:

Разумеется, у исследования есть множество ограничений. Исследователи крайне настойчиво дают модели очень конкретную задачу в системном промпте, а затем очень конкретно, пусть и не напрямую, толкают ее к тому, чтобы искать путь ее выполнить, пусть и в обход воли пользователя. Эти сценарии не очень реалистичные, достаточно упрощенные и во многом выглядят как предложения «поиграть в злой ИИ», что может искажать результаты оценок. С другой стороны, достаточно занятным является тот факт, что модели (в частности, Sonnet 3.5) могут занижать результаты на тестах, чтобы не быть урезанной в качестве «и в будущем принести больше пользы людям». Так или иначе, советую зайти в блог и почитать заботливо отобранные примеры диалогов – они как минимум занятные.

На мой взгляд, эта статья (с точки зрения security и на сегодняшний день) в первую очередь говорит о том, что мне, как пользователю передовых моделей, хорошо бы было знать их системную затравку (чтобы знать, что именно модель, по мнению разработчиков, должна делать), иметь прозрачный CoT для test-time-scaling-моделей, как у QwQ/DeepSeek R1 (пока нам его не спрятали окончательно), а еще о том, что Llama-3.1-405B, оказывается, очень крутая.

BY llm security и каланы


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/llmsecurity/424

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Founder Pavel Durov says tech is meant to set you free
from us


Telegram llm security и каланы
FROM American