Telegram Group & Telegram Channel
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только



group-telegram.com/sergiobulaev/1145
Create:
Last Update:

Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только

BY Сергей Булаев AI 🤖







Share with your friend now:
group-telegram.com/sergiobulaev/1145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from sg


Telegram Сергей Булаев AI 🤖
FROM American