Telegram Group & Telegram Channel
Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6247
Create:
Last Update:

Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from it


Telegram Data Secrets
FROM American