Telegram Group & Telegram Channel
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только



group-telegram.com/sergiobulaev/1145
Create:
Last Update:

Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только

BY Сергей Булаев AI 🤖







Share with your friend now:
group-telegram.com/sergiobulaev/1145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from ye


Telegram Сергей Булаев AI 🤖
FROM American