Telegram Group Search
ByteDance (создатели/владельцы TikTok) продолжают удивлять! Свежий пейпер про OmniHuman-1 демонстрирует очередной взрыв мозга в генерации видео с говорящими людьми.

Главная тема - это "омни-кондишн" тренировка, которая позволяет модели учиться сразу на разных типах данных. Проще говоря, они научились использовать даже те видео, которые раньше приходилось выбрасывать из-за шума или плохой синхронизации губ.

В результате получилась универсальная модель, которая:
- Умеет работать с любыми пропорциями кадра
- Точно передает движения губ и жесты
- Сохраняет стиль оригинального изображения
- Справляется даже с мультяшными персонажами


Самое поразительное - это объем данных. Для тренировки использовали 18.7K часов видео, из которых только 13% подходили под строгие критерии качества. Но благодаря новому подходу, модель смогла научиться даже на "плохих" примерах.

А ещё она умеет анимировать не только лица, но и полноценные сцены с объектами - например, музыкант с гитарой или человек с бокалом вина.

Результаты выглядят роскошно - в сравнительных тестах OmniHuman обходит существующие решения по всем метрикам. Правда, пока это только исследование, использовать его никак нельзя, но учитывая, что за ним стоит ByteDance - ждем появления этих технологий в их продуктах. (Похоже скоро криэйтеры будут не нужны совсем)

Сергей Булаев AI 🤖 - об AI и не только
Наконец-то добрался до Cline! Столько про него слышал, но всё как-то руки не доходили. И знаете что? Он крутой! Replit на стероидах как будто. Есть небольшое ощущение магии, когда наблюдаешь за его работой.

Поставил ему первую тестовую задачу - написать транскрайбер диалогов. У меня есть куча записей в voice recorder на айфоне, которые я регулярно записываю (в основном мои разговоры), но нормально их распознать, особенно на русском, ни один сервис толком не мог.

Сразу решил использовать Assembly AI API - знаю, что он отлично справляется с разделением реплик между собеседниками (кстати, если кто-то знает другие варианты для этого - поделитесь в комментах!).

Работали итеративно:
- Сначала базовое распознавание
- Потом добавили выбор языка
- В конце - возможность переименовывать участников диалога
- Ну и конечно архив транскрипций и хранение файлов.


На всё про всё ушло примерно полчаса и около 5 баксов на Клода через OpenRouter. Для небольших проектов "под ключ" выглядит даже круче Cursor Composer! Правда, как с ним работать над большими проектами - пока не очень представляю. За Composer-то иногда не успеваю уследить, а тут, похоже, будет ещё веселее.

Кстати, готовое приложение выложил на GitHub. Для использования нужен API ключ Assembly AI, но они всем дают $50 кредитов при регистрации. Должно надолго хватить - час транскрибации выходит примерно в 40 центов.

Сергей Булаев AI 🤖 - об AI и не только
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.

По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!

В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.

Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.

Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.

Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).

А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).

Сергей Булаев AI 🤖 - об AI и не только
Anthropic запустил Claude Code - агента для совместного кодинга

Anthropic выложил бету исследовательское превью Claude Code - агента для помощи в написании кода, который работает прямо в вашем терминале. Это первый продукт Anthropic, который выходит за рамки обычного чата и действует как настоящий агент: умеет просматривать код, редактировать файлы, запускать тесты и даже делать коммиты в GitHub.

Что интересного в Claude Code:
- Прямо в терминале понимает контекст вашего проекта
- Может искать по всей кодовой базе и разбираться в её структуре
- Выполняет команды от вашего имени (тесты, линтинг и пр.)
- Работает с git: ищет в истории, разрешает конфликты, создаёт коммиты и PR
- Использует последнюю модель claude-3-7-sonnet-20250219 по умолчанию


Как начать использовать:
# Установка через npm
npm install -g @anthropic-ai/claude-code

# Переходим в директорию проекта
cd ваш-проект

# Запускаем агента
claude

После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:

# Спросить про код
> как работает наша система аутентификации?

# Автоматизировать git
> сделай коммит моих изменений
> создай PR
> в каком коммите добавили тесты для markdown в декабре?


# Изменить код
> добавь валидацию ввода в форму регистрации
> рефактори логгер для использования нового API


# Тестирование и отладка
> запусти тесты для auth модуля и исправь ошибки
> найди и исправь уязвимости безопасности


А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.

Для экономии токенов:
- Используйте /compact когда контекст разрастается
- Пишите более конкретные запросы
- Разбивайте сложные задачи на части
- Используйте /clear между задачами


У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?

Сергей Булаев AI 🤖 - об AI и разработке вместе с ним
Итак вышел GPT-4.5 (проект Orion)!

Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.

Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".

По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.

Интересные факты:
- В Every дали GPT-4.5 пройти личностные тесты вместе с GPT-4o! По сравнению с предшественником, 4.5 оказался более экстравертным, открытым, добросовестным и менее невротичным. Забавно, что оба получили эстетику "Тёмная Академия" в тесте BuzzFeed.
- При просьбе исправить и подытожить стенограмму мыслей, GPT-4o следовал инструкциям буквально, а 4.5 часто - предпочитал написать эссе, игнорируя точные указания. Зато текст получался гораздо лучше и читабельнее.
- OpenAI называет стиль письма GPT-4.5 "Orion prose" - текст с паузами и переносами, который лучше звучит при чтении вслух. Они признались, что проектировали 4.5 больше для голосового режима, чем для чтения.
- Модель может быть своенравной - она не обязательно даст точно то, что вы просите, но предложит то, что считает лучшим. - Это раздражает тех, кто привык к послушным ассистентам.
- GPT-4.5 стоит примерно в 20 раз дороже предыдущих моделей! Неудивительно, что OpenAI пока сделала его доступным только для Pro-пользователей.


Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.

Сергей Булаев AI 🤖 - об AI и не только
2025/03/13 01:29:40
Back to Top
HTML Embed Code: