Telegram Group Search
OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models

Так, вы будете смеяться, но у нас новый и реально бомбоносный видеогенератор.

Тикток выкатил продолжение своих разработок Loopy, о котором я писал в сентябре в обзоре нейроаватаров https://www.group-telegram.com/cgevent.com/9365

Два очень крутых момента:
1. Заточен на генерации людей, причем не только аватаров, но и различные виды портретной съемки (лицо крупным планом, портрет, половина тела, полное тело). Обрабатывает взаимодействие человека с объектами и сложные позы тела, а также адаптируется к различным стилям изображения.

2. И самое главное, на входе у него не только текст и картинка (как мы привыкли), но полный набор вот таких модальностей: текст, аудио(да, звук на вход для липсинка), картинка, другое видео, и внимание - позы. Типа контролНет, который забирается с других видео или картинок. Причем внутри есть развесовка этих разных входных сигналов.

В основе лежит видеогенератор SeaWeed (text-to-video), от Тиктока же, на которого навалили Omni-Conditions Training Strategy - обучение на разных входных сигналах.

OmniHuman model utilizes a causal 3DVAE to project videos at their native size into a latent space and employs flow matching as the training objective to learn the video denoising process. We employ a three-stage mixed condition post-training approach to progressively transform the diffusion model from a general text-to-video model to a multi-condition human video generation model. These stages sequentially introduce the driving modalities of text, audio, and pose according to their motion correlation strength, from weak to strong, and balance their training ratios.

Поглядите на сайт проекта, тьма видосов. Там и певцы, и на дуде игрецы, и махальщики руками.
Но кода нет. Код Loopy и CyberHost тоже не появился. Что наводит на нехорошие мысли.

Фарш тут: https://omnihuman-lab.github.io/

Спасибо Игорю за наводку.

@cgevent
Forwarded from Ai molodca 🤖 (Dobrokotov)
Иисус и мемы.

То, что на мой взгляд не получилось у Pika — спозиционировать себя как генератор приколов для социальных сетей — получается у сервиса PixVerse. Никаких скучных раздувателей/комкателей объектов — обнимайтесь с Иисусом, родственниками, тиграми. Становитесь Халком, Веномом, Сэйлор Мун. И ещё десятки вариантов. В день можно генерить несколько видосов.

Получается проклято, но что ещё нужно для хорошего мема. 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Штошъ, хоть в чем-то Европа обскакала Штаты.

Первое "одобренное Apple" порноприложение для iPhone выходит в Европе (и только в Европе!) через альтернативный рынок приложений для iOS AltStore PAL.

Регулировали, регулировали и вырегулировали.

И как тебе такое, Илон Маск?

Не верите, читайте тут:
https://www.theverge.com/news/604937/iphone-ios-porn-app-hot-tub-altstore-pal-eu

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Тут у openAI апдейт бренда.

Уходят от цветочка к более корпоративному луку.

https://youtu.be/k3d_xeVxEOE?si=vZXH0rUOZNmAw_3L

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Помните нейробалеты, нейрогимнастики и прочую нейронепотребщину?

Тут вот Метачка бахнула интересную работу.

VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

Нет, это не новый видео-генератор, как щас напишут в интернетике.

Это не модель, а фреймворк для улучшения видеомоделей, который объединяет представление внешнего вида объекта и его движение (в латентном пространстве). Что приводит к резкому росту качества генерации и согласованности именно движений объектов.

A framework for enhanced motion generation, seamlessly compatible with various models.

Тут вот про совместимость я не понял.

This is achieved through two complementary modifications: during training, we amend the objective to predict motion in addition to appearance, and during inference, we propose a guidance mechanism to leverage the learned motion prior for temporally coherent generations.

Вот тут масса видосов:
https://hila-chefer.github.io/videojam-paper.github.io/
А вот тут даже бумага уже вышла:
https://hila-chefer.github.io/videojam-paper.github.io/VideoJAM_arxiv.pdf

Сравнивают со всем, что шевелится (и, конечно, свой бенчмарк придумали по дороге). Ну побивают всех на свете, от Клинга до Соры(кто ее, бедную только не пинает теперь).

Ну меня один вопрос, а что нам с этого обломится?
Будет код или это пойдет в метачкин проприетарный видеогенератор MovieGen?

Скорее второе, ибо это работа интерна из MetaAI...

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
А пока мы гадаем, что будет с VideoJAM, принес вам нейролыж и нейродосок.

Блин, зимы стали теплые, снега нет третий год.

Кстати, кто не в курсе на Кипре есть гора Олимп и там, наминутчку, километровый склон и кресельный подъемник (плюс бугеля).
Бывали годы, когда катались до 3 апреля (в майках).
Может не врут про потепление...

@cgevent

@cgevent
Нано-конкурент Eleven Labs, но с контролем эмоций.

Интересный сервис:
https://play.cartesia.ai/text-to-speech

Умеет дизайнить голос, дергая за педальки эмоций.
Там же клонинг голоса, войс ченджер и локализация на до хрена языков. И даже voice mixing (через эмбединги).
У них своя проприетарная TTS-модель Sonic.

Это нашлепка над их собственными разработками по реалтаймовым ИИ.
https://cartesia.ai/

Мне особо не надо, но в чате часто спрашивали...

Эмоции на видео прям читаются, не чит ли?

@cgevent
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и продолжим за голос.

Еще одна побивалка eleven labs - play.ai - с контролем эмоций в голосе.

Но если присмотреться, это вовсе не новый игрок, а давно известный всем PlayHT, который отхватил нарядный домен play.ai и срочно приподвзребренднулся.

Тоже с упоением пишут, что они избивают eleven labs по неким "человеческим" метрикам.
У них там и создание голосовых агентов (которых они путают с ассистентами) и создание подкастов, и Voiceover, и клонинг голосов.

Outperforms Elevenlabs on expressiveness and quality 3 to 1
<1% error rate
Supports 30+ languages
Best in class voice cloning
Low latency: 303ms TTFA (Time to First Audio)

На сайте небольшой бардак (хотя они подняли 25M в ноябре, могли бы нанять web-уборщика).

Ссылки на новую модель ведут в блог пост от 11 ноября.

Ссылки на AI Voice Studio ведут на старый домен https://play.ht/studio

Есть бесплатный тарифный план на попробовать.

В общем если вы по голосом, то можете попробовать продраться через микс из двух сайтов. Может реально у них голоса хорошие? PlayHT некоторые хвалили.

@cgevent
Forwarded from Psy Eyes
2025 только начался, а OTOY уже приглашает тебя в 2026.

OctaneRender, движок для рендеринга 3D и эффектов, обзавёлся поддержкой сплатов в версии 2026.1 Alpha 1.

На видео показано как сплаты рендерятся в реальном времени при работе с DOF камеры, и как меняется освещение, когда другой объект добавляется в сцену.

Сплаты с трассировкой лучей работают медленнее, чем подходы на основе растеризации, однако есть все преимущества рейтрейсинга: сплаты видны в отражениях и преломлениях, могут освещать объекты сцены и отбрасывать на них тени.

Также внедряют поддержку разных AI сервисов: Kling, Luma, Black Forest Labs (Flux), итд.

Сайт
Скачать
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Имба для удалёнщиков — Pickle

Записываем 3 минуты своей говорящей головы. Затем ждём сутки, а то и двое, пока тренируется моделька — и вуаля, готово! Лежим на диване во время мита, пока ваш виртуальный клон с реалтайм липсинком отсиживается за вас перед веб-камерой.

Это молодой стартап с командой из 5–7 человек, так что технических деталей никаких. Есть только подписка, по которой за 24 бакса в месяц можно наговорить аж на 1000 минут (чего, надеюсь, хватит всем). Пока работает только на Mac — поддержка остальных устройств в разработке.

Пообещайте, что не будете пользоваться этой штукой 😗

getpickle.ai

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
В chatGPT раскатали Search не только для бесплатных пользователей, но и для не залогиненных. Давно?

https://chatgpt.com

Доверну, не в бесплатности дело, а в том, что аккаунт не нужен.

Типа просто поисковик теперь.
Генерить картинки без логина не дает.

@cgevent
Интересно, когда выйдет o4, то у пользователей chatGPT и вообще OpenAI мозги порвутся окончательно.

Они и сейчас-то надорваны каким-то иезуитским неймингом моделей.

А тут: чего сегодня изволите: 4o или o4?

https://www.youtube.com/watch?v=fUFhlIAM8bE

@cgevent
2025/02/05 23:21:52
Back to Top
HTML Embed Code: