Telegram Group & Telegram Channel
Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6249
Create:
Last Update:

Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6249

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from br


Telegram Data Secrets
FROM American