Telegram Group & Telegram Channel
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.



group-telegram.com/llmsecurity/223
Create:
Last Update:

Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.

BY llm security и каланы








Share with your friend now:
group-telegram.com/llmsecurity/223

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns
from us


Telegram llm security и каланы
FROM American