Telegram Group Search
Разбираем Tech Report про OpenAI Sora

Раньше у text-to-video моделей возникала проблема с консистентностью кадров. Например, вы просите сгенерировать девушку с развивающимися волосами и, если повезет, получаете видео, где лицо плывет, волосинки телепортируются в пространстве, прическа в целом живет своей жизнью.

Вторая проблема заключалась в том, что модели могли генерировать короткие видео продолжительностью в несколько секунд и делали это в квадратном разрешении (условно 256х256).

Что предлагают ребята из OpenAI?

Видео разбиваем на патчи в пространстве-времени. Идея уходит корнями в Vision Transformer (ViT). Только здесь патчи скорее всего не просто 16x16 участки изображения, но стопки (тензоры) таких изображений для нескольких подряд идущих кадров.

Основную работу выполняет диффузионная модель, которая берет на вход случайный шум и итеративно превращает его в пространственно-временные патчи. Подробнее про диффузионные модели можете почитать здесь.

Видео в высоком разрешении весят много. Память в видеокартах ограничена. Поэтому модель использует Encoder, который сжимает видео в латентное пространство меньшей размерности, диффузия идет в нем, а дальше результат разжимается в привычные нам кадры с пикселями с помощью Decoder. Все точно также как в случае с VAE в Stable Diffusion.

Обучение идет не просто на видео, но на парах видео + текстовое описание. Причем описания апскейлятся с помощью GPT-4 по аналогии с тем, как это делалось в DALL-E 3. Вот мой пост с объяснением.

На выходе получается мощная нейросетка, которая умеет:
- генерировать видео по текстовому описанию
- дополнять видео (модель генерирует продолжение)
- превращать изображения в видео (т.к. изображение — это видео из 1 кадра)
- редактировать видео с помощью текстовых промптов. Например, изменять сеттинг (стиль)
- бесшовно склеивать видео. Вы подаете 2 ролика, а модель генерирует интерполяцию между ними

От OpenAI мало технических подробностей. Чтобы лучше понимать, как все работает, советую почитать статью Motion Diffusion Model (MDM)
Я уже думал он бессмертный и сможет вынести всё. Грустно...
Game Assistant

Пишу себе на досуге голосового помощника для игр. Идея простая, всегда приятнее играть в компании товарища-задрота, который может подсказать по игре. Типа заходишь такой в абилити драфт в дотке, спрашиваешь как работают скиллы после патча, что с чем закомбинить, а он тебе выдает имбу.

Прототип написал за пару присестов. Далеко ходить не стал, для распознавания речи использую Whisper, для ответов GPT, для синтеза речи OpenAI text-to-speech.

На бекенде в ChatGPT зарядил задачи по написанию конфигов для GCP, Docker, Nginx. Самому оставалось только апишку накидать, и даже здесь мне помогал Copilot, который явно лучше меня знает FastAPI.

На фронте позвал товарища, который написал апку на Overwolf — аналог Electron.js, только с фичами для игр типа оверлея и доступа к данным.

На выходе получилось приложение под Windows, которому можно задавать вопросы в играх по нажатию push-to-talk хоткея. Ответ возвращает голосом + субтитрами поверх игры.

Поигравшись с прототипом 5 минут, стали очевидны следующие шаги:

- GPT-4 тратит по 20 сек на генерацию ответа, что вообще не user friendly, потому что пользователь в это время тупо ждёт. Повод посмотреть че там новенького в open source
- LLM допускает ошибки, например выдает неправильный урон или поведение из прошлых патчей. Повод прикрутить поиск по игровым wiki
- OpenAI TTS на русском языке звучит кринжово. Благо есть куча стартапов на эту тему, надо будет посмотреть аналоги

Самое приятное во всей истории с AI, LLM, ко-ко-ко, что за выходные успеваешь и прототип сделать, и в дотку покатать, вместо того чтобы документацию штудировать.
This media is not supported in your browser
VIEW IN TELEGRAM
Will Smith зарофлил в тиктоке по поводу Sora и прогресса в text-to-video.
Media is too big
VIEW IN TELEGRAM
Между делом совершаю подходы к YouTube. Уже начинает получаться что-то похожее на правду, хотя геморрой с производством пока что перевешивает🫠
This media is not supported in your browser
VIEW IN TELEGRAM
Субботний контент 👻

На видео юный охотник за приведениями (со звуком). Между вылазками любит приходить ко мне на колени и долбить по клавиатуре, чиста Copilot.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подрубаю рубрику "1 зритель". Код писать мне уже впадлу, поэтому буду играть в Dota 2.

Чат трансляции под этим постом.
2025/06/19 11:25:35
Back to Top
HTML Embed Code: