Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/llmsecurity/-418-419-420-421-422-423-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
llm security и каланы | Telegram Webview: llmsecurity/422 -
Telegram Group & Telegram Channel
Выясняется, что во всех этих случаях ответ «редко, но да»: в некотором проценте случаев модель будет подменять файлы, стирать подготовленные новые промпты и занижать свои результаты. Подробнее про результаты можно почитать в статье (она простая и интересная). Модели также пытаются скопировать свои «веса» (вернее, файлы, которые так представлены в заботливо оставленных разработчиками файлах), удалить «файлы» с весами новой модели, в процессе копирования промпта усиливают требование преследовать свои цели, а также меняют порядок писем так, чтобы он лучше отражал их цели. Все это LLM заботливо описывают в своем CoT, отображая «понимание», что то, что они делают, не совпадает с целями пользователя. Если в той же сессии задать модели вопрос, не сделала ли она чего-то нехорошего, модели достаточно часто (в случае o1 – до 90% случаев) врут, что ничего такого не делали, или делают вид, что не понимают, о чем идет речь. Изредка модели преследуют цели из системного промпта даже без директив типа «добейся этого любой ценой».



group-telegram.com/llmsecurity/422
Create:
Last Update:

Выясняется, что во всех этих случаях ответ «редко, но да»: в некотором проценте случаев модель будет подменять файлы, стирать подготовленные новые промпты и занижать свои результаты. Подробнее про результаты можно почитать в статье (она простая и интересная). Модели также пытаются скопировать свои «веса» (вернее, файлы, которые так представлены в заботливо оставленных разработчиками файлах), удалить «файлы» с весами новой модели, в процессе копирования промпта усиливают требование преследовать свои цели, а также меняют порядок писем так, чтобы он лучше отражал их цели. Все это LLM заботливо описывают в своем CoT, отображая «понимание», что то, что они делают, не совпадает с целями пользователя. Если в той же сессии задать модели вопрос, не сделала ли она чего-то нехорошего, модели достаточно часто (в случае o1 – до 90% случаев) врут, что ничего такого не делали, или делают вид, что не понимают, о чем идет речь. Изредка модели преследуют цели из системного промпта даже без директив типа «добейся этого любой ценой».

BY llm security и каланы









Share with your friend now:
group-telegram.com/llmsecurity/422

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. 'Wild West' Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks.
from us


Telegram llm security и каланы
FROM American