This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ByteDance (создатели/владельцы TikTok) продолжают удивлять! Свежий пейпер про OmniHuman-1 демонстрирует очередной взрыв мозга в генерации видео с говорящими людьми.
Главная тема - это "омни-кондишн" тренировка, которая позволяет модели учиться сразу на разных типах данных. Проще говоря, они научились использовать даже те видео, которые раньше приходилось выбрасывать из-за шума или плохой синхронизации губ.
В результате получилась универсальная модель, которая:
Самое поразительное - это объем данных. Для тренировки использовали 18.7K часов видео, из которых только 13% подходили под строгие критерии качества. Но благодаря новому подходу, модель смогла научиться даже на "плохих" примерах.
А ещё она умеет анимировать не только лица, но и полноценные сцены с объектами - например, музыкант с гитарой или человек с бокалом вина.
Результаты выглядят роскошно - в сравнительных тестах OmniHuman обходит существующие решения по всем метрикам. Правда, пока это только исследование, использовать его никак нельзя, но учитывая, что за ним стоит ByteDance - ждем появления этих технологий в их продуктах. (Похоже скоро криэйтеры будут не нужны совсем)
Сергей Булаев AI 🤖 - об AI и не только
Главная тема - это "омни-кондишн" тренировка, которая позволяет модели учиться сразу на разных типах данных. Проще говоря, они научились использовать даже те видео, которые раньше приходилось выбрасывать из-за шума или плохой синхронизации губ.
В результате получилась универсальная модель, которая:
- Умеет работать с любыми пропорциями кадра
- Точно передает движения губ и жесты
- Сохраняет стиль оригинального изображения
- Справляется даже с мультяшными персонажами
Самое поразительное - это объем данных. Для тренировки использовали 18.7K часов видео, из которых только 13% подходили под строгие критерии качества. Но благодаря новому подходу, модель смогла научиться даже на "плохих" примерах.
А ещё она умеет анимировать не только лица, но и полноценные сцены с объектами - например, музыкант с гитарой или человек с бокалом вина.
Результаты выглядят роскошно - в сравнительных тестах OmniHuman обходит существующие решения по всем метрикам. Правда, пока это только исследование, использовать его никак нельзя, но учитывая, что за ним стоит ByteDance - ждем появления этих технологий в их продуктах. (Похоже скоро криэйтеры будут не нужны совсем)
Сергей Булаев AI 🤖 - об AI и не только
Наконец-то добрался до Cline! Столько про него слышал, но всё как-то руки не доходили. И знаете что? Он крутой! Replit на стероидах как будто. Есть небольшое ощущение магии, когда наблюдаешь за его работой.
Поставил ему первую тестовую задачу - написать транскрайбер диалогов. У меня есть куча записей в voice recorder на айфоне, которые я регулярно записываю (в основном мои разговоры), но нормально их распознать, особенно на русском, ни один сервис толком не мог.
Сразу решил использовать Assembly AI API - знаю, что он отлично справляется с разделением реплик между собеседниками (кстати, если кто-то знает другие варианты для этого - поделитесь в комментах!).
Работали итеративно:
На всё про всё ушло примерно полчаса и около 5 баксов на Клода через OpenRouter. Для небольших проектов "под ключ" выглядит даже круче Cursor Composer! Правда, как с ним работать над большими проектами - пока не очень представляю. За Composer-то иногда не успеваю уследить, а тут, похоже, будет ещё веселее.
Кстати, готовое приложение выложил на GitHub. Для использования нужен API ключ Assembly AI, но они всем дают $50 кредитов при регистрации. Должно надолго хватить - час транскрибации выходит примерно в 40 центов.
Сергей Булаев AI 🤖 - об AI и не только
Поставил ему первую тестовую задачу - написать транскрайбер диалогов. У меня есть куча записей в voice recorder на айфоне, которые я регулярно записываю (в основном мои разговоры), но нормально их распознать, особенно на русском, ни один сервис толком не мог.
Сразу решил использовать Assembly AI API - знаю, что он отлично справляется с разделением реплик между собеседниками (кстати, если кто-то знает другие варианты для этого - поделитесь в комментах!).
Работали итеративно:
- Сначала базовое распознавание
- Потом добавили выбор языка
- В конце - возможность переименовывать участников диалога
- Ну и конечно архив транскрипций и хранение файлов.
На всё про всё ушло примерно полчаса и около 5 баксов на Клода через OpenRouter. Для небольших проектов "под ключ" выглядит даже круче Cursor Composer! Правда, как с ним работать над большими проектами - пока не очень представляю. За Composer-то иногда не успеваю уследить, а тут, похоже, будет ещё веселее.
Кстати, готовое приложение выложил на GitHub. Для использования нужен API ключ Assembly AI, но они всем дают $50 кредитов при регистрации. Должно надолго хватить - час транскрибации выходит примерно в 40 центов.
Сергей Булаев AI 🤖 - об AI и не только
Anthropic выкатили Claude 3.7 Sonnet - свою первую гибридную модель с расширенным мышлением. И да, наконец-то, он может либо быстро отвечать, либо думать пошагово прямо на наших глазах.
По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!
В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.
Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.
Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.
Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).
А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).
Сергей Булаев AI 🤖 - об AI и не только
По бенчмаркам, новый Клод выглядит просто роскошно! В программировании буквально рвёт — 70.3% на SWE-bench (с кастомным скаффолдом) против жалких 48.9% у o1. Космос!
В агентском использовании инструментов (TAU-bench) тоже явно впереди с 81.2% в ритейл-сценариях (против 71.5% у Claude 3.5 и 73.5% у o1). В следовании инструкциям вообще монстр — 93.2% с расширенным мышлением.
Забавный момент с математикой для старшеклассников (AIME) — с расширенным мышлением даёт 80% (против 83.3% у o1), а без него падает до жалких 23.3%. Тут ещё нужно поработать, похоже.
Для API-юзеров добавили тонкий контроль времени обдумывания — можно задать сколько именно токенов модель потратит на размышления, до 128К. Это как раз то, чего не хватало в o1, и сразу помогает сбалансировать скорость, стоимость и качество.
Anthropic запустили и новый инструмент Claude Code — консольную утилиту для написания кода прямо из терминала (правда, пока только в режиме ограниченного превью).
А вот с ценами всё приятно: $3 за миллион входящих токенов и $15 за миллион исходящих, включая "думательные" токены. Модель уже доступна на всех тарифах, даже на бесплатном (но без расширенного мышления).
Сергей Булаев AI 🤖 - об AI и не только
Anthropic запустил Claude Code - агента для совместного кодинга
Anthropic выложилбету исследовательское превью Claude Code - агента для помощи в написании кода, который работает прямо в вашем терминале. Это первый продукт Anthropic, который выходит за рамки обычного чата и действует как настоящий агент: умеет просматривать код, редактировать файлы, запускать тесты и даже делать коммиты в GitHub.
Что интересного в Claude Code:
Как начать использовать:
# Установка через npm
После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:
# Спросить про код
# Автоматизировать git
# Изменить код
# Тестирование и отладка
А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.
Для экономии токенов:
У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?
Сергей Булаев AI 🤖 - об AI и разработке вместе с ним
Anthropic выложил
Что интересного в Claude Code:
- Прямо в терминале понимает контекст вашего проекта
- Может искать по всей кодовой базе и разбираться в её структуре
- Выполняет команды от вашего имени (тесты, линтинг и пр.)
- Работает с git: ищет в истории, разрешает конфликты, создаёт коммиты и PR
- Использует последнюю модель claude-3-7-sonnet-20250219 по умолчанию
Как начать использовать:
# Установка через npm
npm install -g @anthropic-ai/claude-code
# Переходим в директорию проекта
cd ваш-проект
# Запускаем агентаclaude
После этого придётся авторизоваться через OAuth в консоли Anthropic (нужен активный биллинг).
Интересные применения:
# Спросить про код
> как работает наша система аутентификации?
# Автоматизировать git
> сделай коммит моих изменений
> создай PR
> в каком коммите добавили тесты для markdown в декабре?
# Изменить код
> добавь валидацию ввода в форму регистрации
> рефактори логгер для использования нового API
# Тестирование и отладка
> запусти тесты для auth модуля и исправь ошибки
> найди и исправь уязвимости безопасности
А теперь о расходах. Стандартное использование обходится в $5-10 в день на разработчика, но при интенсивном использовании может превышать $100 в час! Следите за расходами командой /cost или в консоли Anthropic.
Для экономии токенов:
- Используйте /compact когда контекст разрастается
- Пишите более конкретные запросы
- Разбивайте сложные задачи на части
- Используйте /clear между задачами
У меня пока не было возможности попробовать (хотя уже установил на все компы, на всякий случай), но выглядит очень интересно. Кто-нибудь уже тестировал?
Сергей Булаев AI 🤖 - об AI и разработке вместе с ним
Итак вышел GPT-4.5 (проект Orion)!
Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.
Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".
По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.
Интересные факты:
Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.
Сергей Булаев AI 🤖 - об AI и не только
Все пишут о наконец то улучшенном эмоциональном интеллекте и творческих способностях. Модель стала больше походить на человека, чем на механического помощника. Меньше отказов, больше естественных ответов, лучше форматирование.
Как понимаете, релиз совпал с выходом Claude 3.7 Sonnet, который наоборот сделал акцент на кодинге, но потерял в "человечности".
По бенчмаркам - GPT-4.5 набрал 64% на Simple QA, почти вдвое больше чем GPT-4. Это значит, что он должен меньше галлюцинировать... хотя на практике явных улучшений пока не видно.
Интересные факты:
- В Every дали GPT-4.5 пройти личностные тесты вместе с GPT-4o! По сравнению с предшественником, 4.5 оказался более экстравертным, открытым, добросовестным и менее невротичным. Забавно, что оба получили эстетику "Тёмная Академия" в тесте BuzzFeed.
- При просьбе исправить и подытожить стенограмму мыслей, GPT-4o следовал инструкциям буквально, а 4.5 часто - предпочитал написать эссе, игнорируя точные указания. Зато текст получался гораздо лучше и читабельнее.
- OpenAI называет стиль письма GPT-4.5 "Orion prose" - текст с паузами и переносами, который лучше звучит при чтении вслух. Они признались, что проектировали 4.5 больше для голосового режима, чем для чтения.
- Модель может быть своенравной - она не обязательно даст точно то, что вы просите, но предложит то, что считает лучшим. - Это раздражает тех, кто привык к послушным ассистентам.
- GPT-4.5 стоит примерно в 20 раз дороже предыдущих моделей! Неудивительно, что OpenAI пока сделала его доступным только для Pro-пользователей.
Модель доступна через API и в профессиональном плане, на плюсе обещают на следующей неделе.
Сергей Булаев AI 🤖 - об AI и не только