Telegram Group & Telegram Channel
Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6249
Create:
Last Update:

Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6249

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from in


Telegram Data Secrets
FROM American