Telegram Group & Telegram Channel
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только



group-telegram.com/sergiobulaev/1144
Create:
Last Update:

Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только

BY Сергей Булаев AI 🤖







Share with your friend now:
group-telegram.com/sergiobulaev/1144

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. 'Wild West'
from kr


Telegram Сергей Булаев AI 🤖
FROM American