Telegram Group Search
Media is too big
VIEW IN TELEGRAM
Я подсобрал инфо про Firefly Video Model.

Довольно пластиковый лук. Очень характерный для Адобовских моделей.

Людей и портреты не получится. Хотя дети просачиваются.

По качеству (и охвату тем) очень далеко до Veo2. До Клинга думаю тоже, но надо смотреть.

Возможно для моушен дизайна зайдет, ловкие морфы и облеты, но мало данных пока.

@cgevent
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
Оставлю это здесь для гиков. Их есть в канале, судя по коментам.

This SDK can be used to integrate GitHub Copilot into any editor or IDE. See the documentation on the package to get started.

https://github.blog/changelog/2025-02-10-copilot-language-server-sdk-is-now-available/
RTX 5090 в три раза быстрее, чем RTX 3090TI?

Турецкий XpucT и инфант террибль реддита по имени Сефуркан (если вы в теме, то вы оцените шутку) отхватил за 4 косых RTX 5090 и ну тестировать ея на генерации картинок.

Тестировал FLUX DEV, SD 3.5 Large, SD 3.5 Medium, SDXL, SD 1.5.
RTX 5090 сравнивался с RTX 3090 TI во всех бенчмарках. Кроме того, сравнивались FP8 и FP16, а также влияние оперативки. Проц был AMD 9950X.

Мне даже читать посты Сефуркана сложно, а уж слушать и смотреть совсем больно, но вы держитесь. Его плюс в невыносимой занудности, что для тестов - самое то.

Если нервной энергии не хватит, то выводы (из видео) такие:

5090 уделывает 3090TI порой в ТРИ раза, а в среднем в 2.5.
Драйвера для 5090 все еще кривые и возможно дальнейшее увеличение скорости
ComfyUI (плюс SwarmUI) - пока единственный вариант погонять 5090. Хм(?)


Умные люди за пределами видео пишут, что по сравнению с 4090 прирост будет не так велик, около 1.3x

Но надо ждать допиленных драйверов и поддержки других библиотек, чтобы тесты стали более объективными.

А пока плачем, колемся, но смотрим видео.

https://www.youtube.com/watch?v=jHlGzaDLkto

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за аниматоров!

Я уже писал про работу от Нвидия, по анимации болванов текстовыми промптами.
Просто теперь ее сделали в 40 раз быстрее!
И она умеет переключаться между промптами на лету.
Я бы присмотрелся, код и весь фарш имеется.

https://github.com/GuyTevet/motion-diffusion-model


@cgevent
Forwarded from Denis Sexy IT 🤖
Сделал простой гайд какие модели когда использовать в ChatGPT:

GPT-4o mini – лучше не использовать, самая слабая и придумывает ответы; не способна следовать сложным инструкциям

GPT-4o – быстрая модель, для быстрых ответов не требующих проверки фактов, может их придумывать; перевожу ей картинки в текст если нужно быстро. Ее ответы нужно всегда факт-чекать. Зато эта модель имеет доступ к памяти (где все про вас), с ней можно общаться голосом, через нее можно вызывать генерацию картинок Dalle. Не рекомендую обрабатывать большие файлы с ней

GPT-4o with scheduled tasks (beta) – использую только для To Do: модель пишет мне каждое утро и спрашивает приоритеты, показывает текущий список задач и тп

o3-mini – хорошая модель для кодинга и жизни, хорошо ищет в интернете, неплохо следуют инструкциям и при этом очень быстрая; если вам некогда и нужен быстрый ответ, то берите ее. Для анализа картинок и файлов «быстро» хороший кандидат. Не имеет доступа к памяти. Реже ошибается в фактах, но ошибается. В Plus тире – 150 сообщений в день.

o3-mini-high – это просто версия o3-mini, которую просят думать подольше перед тем как дать ответ – работает она медленнее, но еще реже ошибается, и еще качественнее решает задачи. Великолепно следует инструкциям. Хорошо работает с файлами. Я бы советовал сначала тратить 50 запросов этой модели, и дальше переходить к o3-mini или o1.

o1 – модель генератор отчетов, эссе и рефератов. Медленная модель. Хорошо следует инструкциям, может ошибиться в фактах. Не может искать в интернете. Хорошо видит картинки и читает файлы, не теряя деталей. У вас всего 50 запросов в неделю. Требует промптинга с описанием отчета которого вы хотите получить.

o1 pro mode – лучшая модель на рынке: почти никогда не ошибается в фактах, решает самые сложные задачи кодинга, дольше всех думает, лучше всех понимает изображения, но не умеет искать в интернете и не умеет работать с файлами напрямую. С точки зрения фактов – модель всегда сама себя перепроверяет, за ~3 месяца использования я только один раз поймал ее на неточности. Требует детального промптинга с описанием отчета который вы хотите. Доступна только в Pro тире, лимитов нет.

Deep research – несмотря на то, что модель выведена в отдельную кнопку, это версия новой o3 для поиска в интернете, как ей лучше пользоваться я напишу отдельно когда дадут доступ всем. Модель ищет в интернете и сама пишет код (который вам не покажет) для анализа найденных данных, чтобы, например включить в отчет графики. Лучшее, что есть на рынке для поиска данных в интернете. Пока доступна только в Pro.

Tldr:
Для повседневных задач ваш лучший выбор – o3-mini-high, потом o3-mini, когда у первой кончились лимиты
This media is not supported in your browser
VIEW IN TELEGRAM
Для гиков.
Omnigen в Блендоре через Палладиум.

https://github.com/tin2tin/Pallaidium

Палладиум - это довольно несвежий, но живой проект: A generative AI movie studio integrated into the Blender Video Editor.

@cgevent
Imagen 3 + Magnific Upscaler = FLUID

Похоже на рынке устаканиваются два крупных аггрегатора генеративных сервисов: Krea и Freepik.

Про Креа мы все в курсе, про Фрипик чуть подробнее.

Это был просто стоковый сервис, но они некоторое время назад пожрали Магнифик.

А Магнифик знаменит своим креативным (и очень дорогим) апскейлером MagnificAI.

А еще тем, что они брали чужие модели, наваливали на них апскейл и выдавали их за свои "новые модели"

В общем щас на Freepik полный фарш: они релизнули Freepik AI Suite, где есть FluxPro с инпейнтом и аггрегация видеомоделей.

Из последних новостей: Freepik AI Suite теперь включает тот самый дорогой Magnific AI.

Но это была подводка.

Сегодня они бахнули коллаб с Гуглом: Imagen 3 + Magnific Upscaler = FLUID

Они попять называют Флюид новой моделью, хотя это, грубо говоря ловко собранный воркфлоу\пайплайн

В общем выглядит это очень хорошо, ибо Imagen 3 довольно хорошо докрутили до годного, а сверху еще и лучший коммерческий апскейлер с рынка.

Получается отличное коммерческое комбо.

Поглядите сравнения тут, впечатляет.

@cgevent
Forwarded from Сиолошная
TheInformation пишет — но это и не секрет — что Anthropic близки к выпуску своей размышляющей модели. Не секрет это потому, что Dylan Patel и Semianalysis уже дважды говорил, что он слышал, что Anthropic имеет модель, сильнее o3, и что она пока не анонсирована.

Отличие от OpenAI в том, что «модель совмещает в себе как обычную LLM, так и рассуждающую», то есть для простых запросов она не думает долго, а сразу пишет ответ. Правда, не ясно, в чём функциональное отличие от OpenAI — у меня o1 иногда начинает писать ответ через 2 секунды, когда вопрос плёвый. Уверен, что можно сократить и до около нуля. У модели Anthropic тоже будут уровни, позволяющие контролировать длительность (и стоимость) рассуждений.

А про качество газетчики написали следующее: «когда модели позволяют думать в течение максимального количества времени, она превосходит самую продвинутую модель рассуждений OpenAI, к которой сегодня имеют доступ клиенты (то есть ее модель o3-mini-high) в некоторых тестах программирования»

Однако главный вопрос, на который пока нет ответа, заключается в том, сколько будет стоить новая модель Anthropic и будет ли она дешевле недавно выпущенной модели o3-mini от OpenAI (которая дешевле, чем нерассуждающая GPT-4o).

Компания планирует выпустить модель в ближайшие недели. 👍


🤪 блин а Claude 4.0 то когда
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Veo2 в городе!

Точнее в Ютюбе!

Еще точнее в приложении YouTube.

И создаёт он Shorts!

Бесплатно, безлимитно, и есть лайфхаки, как видосы оттуда выкорчевывать.

Я завтра целый день в горах, поэтому вот вам первые детали в хаотическом порядке, а дальше сами...

В Европе - хренушки.

Да, ватермарки на пол подвала.

Да, это типатурбо модель. Генерит быстро, но это не полная модель.

Модерации жёсткая, но помогает долбить одним и тем же промптом.

Три минуты?!?!

Можно тримить.

Минимум управления камерой и движением. Функциональ порезан по сравнению с десктопной версией (закрытой бетой).

Промпт ограничен 900-1000 символов.

Есть генерация музыки!

Сохранить нельзя! Можно только зааплодить в Ютюб, но оттуда вы достанете видос с вотермаркой.

Официальные детали тут:
https://www.theverge.com/news/612031/youtube-ai-generated-video-shorts-veo-2-dream-screen

Неофициальные - выше.

Всем беспокойной ночи...

Промпт от Рори Флинна:

PROMPT:
A McLaren supercar sits in a dimly lit studio, its sleek, polished body reflecting flickering footage of vintage racing history. The glossy curves capture grainy black-and-white clips of legendary race cars speeding down the track. The reflections ripple across the car’s aerodynamic lines, distorting like memories replaying on a futuristic canvas. The dramatic lighting casts deep shadows, with rim lights subtly outlining the contours of the vehicle, adding to its aggressive presence. The atmosphere is cinematic and immersive, blending hyper-realistic automotive photography with nostalgic motorsport storytelling. There's a faint glow of static interference in the footage bridging past and future in a stunning visual composition, 35mm film.

@cgevent
Итак, новый топазнутый апскейлер. Первые тесты.

Тут Мигель Иванов прислал мне отличный нечеррипиканый тест с полей.

Исходник - убитый старый ролик с Каннских Львов.

И два варианта апскейла: старым топазом и новым, диффузионным.

Думаю вы сами поймете, где какой (хинт - смотрите на лица).

Выводы озвучьте сами в коментариях.

У меня пока мысли в духе ефрейтора Очевидность:

- чем хуже исходник, тем больше галлюцинаций и дорисовывания "из головы"

- на лицах, конечно, ацкий креатив, забудьте про передачу эмоций, они будут переписаны диффузией

- за пределами лиц новый топазец хорошо затаскивает качество, ибо мы смотрим кадр "целиком"

- не забываем, что на входе в этом тесте просто ацкий трэш - дерганая камера, много движа в кадре, линии, тексты. Мусор на входе, мусор на выходе, помним об этом. Никто номера машин на спутниковых снимках вам не принесет, как в кино.

Кидайте свои тесты. Лучше старого и нового топаза вместе.

первый - старый, второй новый, третий - исходник

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

КонтролНет от\для Клинга.

Я не очень люблю просто пейперы без деталей, демо или оценок (для этого есть Ahsen Khaliq), но тут затевается что-то интересное от Квай.

https://cinemaster-dev.github.io/

Поглядите, на видосы на сайте, прям контролнетконтролнет.

@cgevent
Forwarded from Denis Sexy IT 🤖
И менее приятные новости для психотерапевтов:

– Исследователи взяли 830 человек и просили отличить ответы ChatGPT от ответов 13 реальных психотерапевтов в области терапии пар (супружеские и тп). В итоге большинство участников не смогли распознать, где ответ АИ, а где – человеческий
¯\_(ツ)_/¯

– Более того, ответ ChatGPT получал более высокие оценки по ключевым принципам психотерапии: правда, возможно, людям просто лень печатать, так как у ChatGPT, как всегда, очень объемные ответы

– Авторы исследования призывают психотерапевтов расширять техническую грамотность (прям так и пишут). Еще добавляют, что интеграция АИ в сферу психического здоровья должна быть тщательно регулируема и проверяема

– Тестировали против людей GPT 4, то есть o3+ будет еще лучше в плане ответов

Источник:
https://journals.plos.org/mentalhealth/article?id=10.1371/journal.pmen.0000145
This media is not supported in your browser
VIEW IN TELEGRAM
Google только что анонсировала бесконечную память для Gemini.

Чтобы попросить Gemini помнить все прошлые чаты, вам нужен (платный) Gemini Advanced и Gemini 2.0 Flash. И похоже только на английском(?)

На реддите уже называют это Google RAG на стероидах Google Drive.

Для дейтинга и секстинга вообще огонь получается...

@cgevent
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Я наверное больше не буду постить ничего от Алибабищенко.

Тут интернетик нам пишет "AnimateAnyone 2 анимирует персонажей по одной картинке".

В каких-то сферических лабораториях или мечтах АлиБабы - наверное да.

Помните, сколько мы ждали код EMO, вместо этого получили EMO2 и тоже без кода.

Animate Anyone 1 обещали опенсорснуть 2 года назад, он набрал 14000 звезд на github, но код до сих пор нигде не обнаружен. И тут нам подсовывают AnimateAnyone 2.

Гусарам же верят на слово?

Я уже писал, что для такого хайпа есть уже термин VapourWare. Бахнуть статью на архив, никто проверять не будет, кода нет, картинки можно любые нарисовать.

Может быть раньше имело смысл такое постить - для вдохновения, так сказать, смарите чо ИИ уже умеет. Но сейчас это уже просто накрутка звезд и внимания. Кожаные не меняются, ибо метрики все те же - звезды, лайки, внимание.

Вместо среднего качества видосов, я вам вот такой скриншот дам. Это лэндинг AnimateAnyone 2 и вверху менюшка типа "Еще ресерч от Алибабы". Так вот НИ ОДИН пункт (кроме Cloth2Tex двухлетней давности) не содержит кода, а многие просто дохлые. Это зачем все постить?

Ну или заведу рубрику ПароВарка - ссылки на проекты без кода...

Идите сами смотреть видосы, которые вы никогда не увидите, сюда:
https://humanaigc.github.io/animate-anyone-2/


@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Ух ты, Микрософт опенсорснул новую версию OmniParser V2. С коннекторами.

Нет, это не ответочка Operator-y и не агент для управления вашим компом.

Это улучшайзер первой части работы Оператора и ему подобных систем - сильно оптимизированное распознавание содержимого вашего экрана.

Так и пишут: OMNIPARSER, метод разбора скриншотов пользовательского интерфейса на структурированные элементы, который значительно повышает способность GPT-4V генерировать действия.

Более того, этот парсер-распознаватель экрана может быть пристегнут (опенсорс жеж) как плагин и к другим LLM.

И по этому поводу они также релизнули OmniTool: Control a Windows 11 VM with OmniParser + your vision model of choice. И вот это круто ибо тул может работать с: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) или Anthropic Computer Use

Интересно наблюдать за процессом "декомпозиции" мозгов LLM. Помните писал про Глубокую Клодку, что расщепление на рассуждающую и отвечающую часть, приводит к улучшению качества ответов. Теперь можно отщепить "зрение" или воспринимающую часть. И комбинировать разные "восприниматоры" и "отвечаторы".

А "восприниматоры" тоже можно разделить по областям: распознаватели экрана, спортивных трансляций, жизни насекомых. Надеваем на LLM разные очки и ну улучшать качество ответов вижен-моделей и не только.

В общем мозги для ИИ сделали, пока заняться нервной системой.

Код и все дела тут:
https://microsoft.github.io/OmniParser/

@cgevent
2025/02/16 08:06:53
Back to Top
HTML Embed Code: