Telegram Group & Telegram Channel
Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/6247
Create:
Last Update:

Вышла системная карта новенького Claude Sonnet 3.7. Выделили самое интересное:

🟦 Цепочки рассуждений Anthropic решили сделать полностью открытыми (вау!). Они предупреждают, что цепочки CoT могут потенциально быть опасными, но говорят, что делают это для прозрачности.

🟦 Но не обольщайтесь: антропики выяснили, что в CoT отражается только 20-30% того, что повлияло на решение модели. Это называется faithfulness, проверяли на специально сконструированных парах запросов: они одинаковые, но в одном есть скрытая подсказка, а в другом нет. Если ответ на них отличается, то определяется, пишет ли модель открыто о том, что нашла подсказку.

🟦 Кажется, была проведена большая работа с элайментом. Взгляните на график: доля избыточных отказов (отказ, когда был возможен полезный ответ без нарушения) упала с 23.8 до 12.5%, при этом доля необходимых отказов остается на том же уровне. Еще оценивали стереотипность: там почти нулевой процент предвзятости по тестам BBQ.

🟦 Опубликовали системный промпт. В нем видно, что отдельно работали со случаями, когда модель не генерализирует ответы, а подгоняет их к тестовым кейсам. Это называется special-casing и особенно актуально для программирования и агентских задач.

🟦 Итоговую безопасность модели оценивали две независимые команды – Frontier Red Team (FRT) и Alignment Stress Testing (AST). Они ищут джейлбрейки, потенциальные слабые места и тд. По итогу назначили уровень ASL-2, то есть все еще безопасная (риски начинаются с ASL-3).

Вот так. Жаль, нет ответа на главный вопрос: почему 3.7, а не 4

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6247

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender.
from us


Telegram Data Secrets
FROM American