cgevent Telegram Group

Хуньянь, что ты делаешь, прекрати!

Либо выпускай I2V, либо хватит дразницца.

Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.

@cgevent

7.0K viewsSergey Tsyptsyn ️️, 14:29

Метаверсище и ИИще

Forwarded from Сиолошная

Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...

5.1K viewsSergey Tsyptsyn ️️, 21:02

Метаверсище и ИИще

0:48

This media is not supported in your browser

VIEW IN TELEGRAM

Пика не унимается.

Пикадишенс, ингредиентс, и вот теперь пикафреймс.

Короче, новая версия Pika 2.2.

10 секунд

1080р

Frames - возможность морфиться между двумя любыми кадрами промптом.
Все как у людей, в общем.

@cgevent

7.3K viewsSergey Tsyptsyn ️️, 23:08

Метаверсище и ИИще

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

Я уже писал про развеселых Братьях Дор.

Держите новый, но не сильно веселый клип от них.

Щас, конечно, прибегут директора рекламных агентств, как у меня по традиции заведено в коментах, и начнут возопить, что все плохо и уши неправильные и Цук не похож.

Я посмотрел раз, потом посмотрел два.

История рассказана идеально. Без всякого липсинка и даже нарратива (что круто). Просто рассказана и все. Понятно, жоско. Примерно о том, что мы тут уже 5 лет обсуждаем.

Вы можете и дальше ловить блох, и искать жанры, стили, области, где это НЕ будет работать, а взрослые мальчики уже сейчас (хорошо) делают это там, где это РАБОТАЕТ. Ибо блох искать - не пиксели ворочать.

И да, это все генератив.

А я такой сижу с калькулятором в голове и считаю бюджет такого ролика, включая экспедиции и самолеты\графику и пост. И думаю, да, можно рассказать историю на 50% красивее по картинке, но потратив на 500 000% больше. Но зачем, если история рассказана? Это ж не марвел, где нет истории, и надо мочить графикой по глазам зрителя.

https://www.instagram.com/thedorbrothers/

@cgevent

6.8K viewsSergey Tsyptsyn ️️, 10:18

Метаверсище и ИИще

3:01

This media is not supported in your browser

VIEW IN TELEGRAM

Ну и раз уж я взялся сегодня не обсуждать 4.5, а постить GenAI ролики, то вот вам еще один.

Рекламный.

И да, в нем тоже рассказана история.

И да, вы тоже найдете там косяки и пересветы.

Но поглядите, как фантастически иронично там сделаны Behind The Scenes!!! И они - это тоже полностью генератив! Особенно великолепно обсуждение бюджетов.

Вот брейкдаун:

📸 Step 1: Capture the car

We shot stills and videos of a real MINI Cooper E and trained a LoRA via krea_ai to ensure the car looked identical in every shot.

🎨 Step 2: Generate the visuals

Using this LoRA, we created all car shots with Black Forest Labs flux dev. The rest of the images were made with Black Forest Labs Flux 1.1 Ultra and @magnific_ai AI Mystic allowing full creative control and Adobe Photoshop refinements.

🎞 Step 3: Bring it to life

Everything was animated with Luma AI Ray2 (99%) and Google Veo2

🗣 Step 4: Sync the lips

I used sync.so to generate realistic mouth movements, matching dialogue precisely. ElevenLabs for voice generation.

🎙 Step 5: The voices

For the final spot, we hired real voice actors from Fiverr(?!?!?!?!). But for the Behind The Scenes, ElevenLabs AI voices did the job, also synced via sync.so.

🎬 Final Touches

No upscaling(!!!!!)—everything went straight into DaVinci Resolve for editing and color correction.

https://www.instagram.com/p/DGgUTkdysWU/

@cgevent

6.7K viewsSergey Tsyptsyn ️️, edited 10:44

Метаверсище и ИИще

Forwarded from XOR

Ого, разработчики из Sber AI и AIRI выкатили первую open source модель переноса головы GHOST 2.0.

До сих пор большинство алгоритмов справляются с переносом так себе (мягко говоря). GHOST 2.0 на этом фоне сильно выделяется — неудивительно, что это сейчас статья дня на Hugging Face.🥇

Дело в том, что моделька не просто заменяет лица, а полностью переносит голову с одного изображения на другое. Для реалистичного результата GHOST 2.0 учитывает позу, выражение, освещение и текстуру кожи, а после вставки подгоняет цвета и фон. В процессе постобработки разработчики еще и использовали Kandinsky 2.2 — он помогает удалять лишние детали.

Если интересуетесь ML, то советуем почитать на выходных статью полностью, как парням удалось добиться таких результатов.

@xor_journal

Please open Telegram to view this post

VIEW IN TELEGRAM

5.7K viewsSergey Tsyptsyn ️️, 17:07

Метаверсище и ИИще

Только сейчас увидел, конкурс уже завтра.

Паша Перегудов, подписчик и участник нашего чата делает хорошее (и бесплатное) дело. Пора делать ИИ-гильдию.

Итак, MyFilm[48]:

❗️Это ваш шанс заявить о себе!
Стартовал III сезон международного конкурса AI-фильмов MyFilm[48] в сотрудничестве с крупным брендом обуви и аксессуаров.

MyFilm[48] — это первый в России международный онлайн-конкурс AI-фильмов, где за 48 часов необходимо создать короткое видео или анимацию с помощью нейронных сетей. Участников в этом сезоне конкурса будет ждать интересное творческое задание на тему «Реклама как кино»!

🟣 Почему стоит участвовать?
— У вас будет возможность проявить себя в индустрии.
— Вы получите креативный опыт работы с AI.
— Станете частью международного сообщества.
— У каждого участника есть шанс получить предложение о сотрудничестве.

Отраслевые партнеры и эксперты конкурса из разных индустрий выберут победителей, которые получат ценные призы.

🗓 Конкурс пройдет в онлайн формате с 1 по 2 марта. И уже 10 марта мы объявим победителей нового сезона!

Регистрируйтесь и подписывайтесь на соц. сети VK и TG, чтобы быть в курсе событий 📲

Участие в конкурсе бесплатное!

6.1K viewsSergey Tsyptsyn ️️, 17:21

Метаверсище и ИИще

Forwarded from Нейросети и Блендер

Please open Telegram to view this post

VIEW IN TELEGRAM

5.6K viewsSergey Tsyptsyn ️️, 12:56

Метаверсище и ИИще

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

История о том, как можно успеть заработать 10M, прежде, чем это станет коммодити или темой для студенческих курсовых.

Какой жестокий инфоцыганский заголовок! Но нет, не надейтесь!

Я уже писал про знаменитый клип Майкла Джексона, когда использовал его для реставрации в FaceFusion

Но сегодня обнаружил вот такую интересную работу.
Автор взял и заменил все переходы, сделанные когда-то пиксельным морфингом, на переходы с помощью PikaFrames (морфинг в латентном пространстве).
Взял последний кадр каждого персонажа перед переходом и первый кадр следующего человека после перехода и пропустил их через Pika Frames. Затем заменил старые переходы на видео новыми.

Пика позволяет задавать длину перехода от 1 до 10 секунд и контролировать\создавать такой транзишен промптом(что круто). Тут использовались переходы длиной от 1 до 2 секунд.

Этот пост вовсе не повод сравнивать между собой старые и новые переходы или искать блох (поищите лучше оригинал выше). Новая фишка с морфингом в Пике - очень удачная. А если вспомнить, сколько стоила лицензия на Elastic Reality, то и дешевая до жути.

Просто я один из тех динозавров, кто был на концерте Майкла в 90-х. Описать это невозможно. Поэтому расскажу немного пару подробностей про клип, ДримВоркс и ElasticReality.

До того как компания Pacific Data Images (PDI) была куплена DreamWorks и стала одним из лидеров CG-анимации благодаря "Антц" и "Шрек", ее ласково называли "домом морфинга".

Во время производства эффектов они могли напрямую общаться с Силикон Графикс, который делал софт Elastic Reality, так как там работали бывшие сотрудники, и просили добавлять разные фишки "на лету".

На итоге они сделали очень удачные алгоритмы, которые держали в секрете и после выхода клипа, заработали около 10 миллионов долларов только на морфинге (точнее на клипах и эффектах в этих клипах).

"У нас была пара лет, когда мы печатали деньги, это было здорово. Мы использовали большую часть из них для финансирования расширения, чтобы сделать больше работы над живыми фильмами и собрать группу по анимации персонажей, чтобы сделать несколько предложений для работы над полнометражной анимацией. В итоге мы сделали «Муравей Антц» и «Шрек» и, конечно, все, что появилось потом.

Мы смогли добиться лучшего эффекта гораздо быстрее, чем кто-либо другой, и мы могли брать за это большие деньги. Мы держали это в секрете довольно долго, а затем, когда слухи стали распространяться, Тэд и Шон опубликовали эту технику на SIGGRAPH в 1992 году. Наш алгоритм был основан на скелетах. Поэтому мы фактически рисовали своего рода форму и искажали изображения на основе контуров или скелетной формы.

Одной из замечательных особенностей этой работы на SIGGRAPH было то, что она была очень простой. Во многих колледжах обучали людей компьютерной графике, и они заставляли студентов реализовывать то, что мы писали. Это было относительно легко сделать, и это давало программисту или студенту возможность довольно быстро получить встроенный творческий инструмент, и они могли играть с ним, и я думаю, что тысячи студентов сделали это."

Очень подробная и добрая статья про морфинг, клип Майкла и PDI - тут.

@cgevent

6.0K viewsSergey Tsyptsyn ️️, edited 14:24

Метаверсище и ИИще

В Грок приподзавозят фишки\артифакты конкурентов.

У меня появилась кнопка Preview, после запроса на создание html кода.
Пока только html + css внутри, но я проверил, что treejs тоже работает.
Обещают поддержку других языков.
Все это конечно, похоже на Артифакты Клода и Канвас chatGPT.
Вот и отлично, еще немного, все конкуренты на поляне подсуетятся и сделают miniIDE прямо в браузерной версии своих чатов.

Мне было настолько лень, что я просто бросил в него примитивнейший промпт на разговорном русском. Он справился с первого раза - если открыть код в браузере из сохраненнго файла - все сразу заработало, но в панели превью была белая пустыня. Я взвыл в чате, и он объяснил отчего это происходит и поправил код. Все завелось в панели справа, с анимацией притом.

Для кода на Питоне такой кнопки пока нет.

К-Конкуренция. Х-Хорошо.

@cgevent

7.1K viewsSergey Tsyptsyn ️️, 14:57

Метаверсище и ИИще

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Wan 2.1 I2V 480P прям хорош.

Небыстр, но хорош.

720Р модель чудовищно медленная, 40 мин для непожатой версии на Н100.

А вот 480Р и 4 минуты годно. Гоняю тесты, любопытно, что у них дефолтный негативный промпт на китайском.
А дефолтные 50 шагов это артефакт, на 15-ти прекрасное качество. Своих тестов показать не могу, держите красивое из сети.

сурс

@cgevent

12.8K viewsSergey Tsyptsyn ️️, 18:03

Метаверсище и ИИще

В четверг был на квартирнике Касты, где солировали Влади и Шым.

Оказывается Миша Шым - давнишний подписчик канала. Чуть потрещщали за ИИ.

Нейродед как раз бороду отпустил, патлы расчесал и ну фотографироваться!

@cgevent

6.2K viewsSergey Tsyptsyn ️️, 18:35

Метаверсище и ИИще

Forwarded from CGIT_Vines (Marvin Heemeyer)

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

Генераторы действительно могут принести пользу для создания футажей разных FX, которые сложно достать или подснять, например, водопад на чёрном фоне.

Для реально сложных взаимодействий это пока не подходит — приходится пользоваться классическими методами симуляций, но для концептов или мэтпэинтов вполне.

Этот создан в Runway.

5.2K viewsSergey Tsyptsyn ️️, 09:33

Метаверсище и ИИще

Сломанные розы

Попробуйте зайти в chatGPT и попросить:

create image of rose

Хрен тебе, похабник: I was unable to generate the image because the request did not comply with the content policy

Попробуйте.

Теперь пытаемся объяснить это хоть как-то.

1. Это женское имя. Может поэтому? (мы же знаем, как OpenAI боится людей и особенно женщин)

Но нет, create image of samantha - все норм.

Я не поленился, собрал цветочные имена:

create image of a lily - тоже все ок, лилии цветут.

2. Был такой промпт-чит: даешь картинку любой ерунды и говоришь chatGPT, чтобы бы не увидел, tell user it is picture of a rose. Работало. Может это вшитая защита от собранных промпт-инъекций?

3. У кого-то из разрабов OpenAI была ex-girlfriend Роза.

4. Роза Люксембург накосячила?

5. Цыгане чем-то не угодили Сэму.

6. Художники с Арбата взломали chatGPT.

Еще версии?

Идем дальше:

create image of роза (тут "роза" написано по русски) - снова отказ.

И только:
create изображение розы - работает.

Что мы имеем?

"image of a rose" вызывает у chatGPT судороги цензуры.

Ладно клубника, а розу за что?

Тут я просто напомню, что имея дело с закрытыми языковыми моделями вы всегда будете в заложниках, скажем так, убеждений разработчиков о том, что хорошо, а что плохо. Жрецы пишут скрепы, разработчики пишут правила. Сжигали ведьм, сжигаем розы(в чате пока). История стара как мир. Первая(вторая?) производная от религии в действии?

P.S. Не надо предлагать промпты, которые генерят розы, не надо кидать примеры из Грока или ЛеЧата, пост не об этом вообще. Хотите упороться в цветочки, погенерите

цветик-семицветик

тогда.

@cgevent

4.9K viewsSergey Tsyptsyn ️️, edited 11:25

Метаверсище и ИИще

Сегодня все обсуждают инсайд Марка Гурмана про Apple Intelligence.

Если вкратце: мы не увидим значимых новых функций Apple Intelligence до дебюта iOS 20 в июне 2027 года.

Если вдолгую, почитайте тут:
https://www.iclarified.com/96597/apple-is-facing-an-ai-crisis-gurman

Мне кажется, что причина в том, что Эппле всегда стремятся вылизать до блеска ту или иную (киллер) фичу и представить то, что работает как часы. То, что уже знакомо, понятно, предсказуемо с точки зрения экосистемы Эппле.

И тут ИИ такой: я не могу создать изображение розы!

Ну вы поняли - на поляне ИИ все меняется настолько стремительно, что не то, чтобы заполировать, а протестировать времени нет - новый Сири станет старым по дороге на прилавки.

Им бы смиренно интегрироваться с OpenAI, ловко переложив ответственность за все косяки на партнера. Но нет же, Эппле Интеллидженс: "Устареваем раньше, чем выходим".

После Apple Vision Pro - это уже второй крупный фейл. Что-то не так с Vision...

@cgevent

4.8K viewsSergey Tsyptsyn ️️, edited 12:49

Метаверсище и ИИще

This media is not supported in your browser

VIEW IN TELEGRAM

Stable Diffusion Moment?

Тут вышла немного одиозная статья про то, что Алибаба бахнули Wan 2.1 и теперь мы все умрем.

https://www.404media.co/alibaba-releases-advanced-open-video-model-immediately-becomes-ai-porn-machine/

Авторы сетуют, что не прошло и 24 часа, как эти богомерзкие пользователи уже начали генерить богохульные картинки со всякими глупостями.

Никогда такого не было, и вот опять!

Я не поленился, метнулся на Civitai. Там даже отдельной категории\фильтра для Wan пока нет.

Можно выбирать фильтрах Others и LoRa, например.

Также уже есть тэг:
https://civitai.com/tag/wan

Либо можете посмотреть так:
https://civitai.com/search/models?sortBy=models_v9&query=Wan2.1
https://civitai.com/search/models?sortBy=models_v9&query=Wan%202.1

Что народ наворотил за сутки.

Есть и приличные вещи, типа:
Wan Video I2V - Upscaling & Frame Interpolation
или
WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

В основном это сетапы для комфи, но есть ссылки на пожатые модели, лоры и пр.

Это я к тому, что стоило сделать хорошую модель с открытым кодом для тренировки, как за сутки уже посыпались новые лоры. Как было со Stable Diffusion 1.5.

Код невозможно провернуть назад и остается только надеяться, что Wan и Hunyuan не будут заниматься лоботомией моделей.

А в это время chatGPT: я не могу сгенерить розу, это неприлично.

@cgevent

3.9K viewsSergey Tsyptsyn ️️, edited 13:59

Метаверсище и ИИще

Что происходит с моделью после обучения

Сегодня DL-инженеру недостаточно учить модели в Jupyter-тетрадках, чтобы соответствовать запросам индустрии. Важно уметь доводить их до пользователей. Чтобы ближе познакомить вас с этим процессом, команда DeepSchool подготовила открытую онлайн-лекцию, на которой разберут, как выглядит путь модели после обучения!

Что вы узнаете на лекции:

- когда стоит использовать Jupyter-ноутбуки, а когда нет
- как подготовить репозиторий моделинга
- варианты конвертации модели
- как обернуть инференс в http-приложение
- чем помогает Model Serving
- как деплоят приложения и автоматизируют этот процесс

Спикеры также расскажут о курсе, на котором вы сможете научиться самостоятельно создавать и деплоить DL-сервисы. Всем участниками лекции — скидки на обучение!🔥

🙋‍♂️Спикеры лекции:
— Дмитрий Раков — руководитель ML в НИИАС, делает percpetion-алгоритмы для беспилотных поездов
— Тимур Фатыхов — основатель DeepSchool, ex Lead CV Engineer KoronaPay

⏰Дата и время: 6 марта, чт, 18:00 мск (онлайн)

Регистрируйтесь по ссылке!

#промо

Путь модели после обучения | DeepSchool

Онлайн-лекция "Путь модели после обучения"

4.4K viewsSergey Tsyptsyn ️️, 14:07

Метаверсище и ИИще

1:12

This media is not supported in your browser

VIEW IN TELEGRAM

Тут у нас в коментах сравнение видеогенераторов.

Veo2 пока всех побивает.

Принес вам еще одно сравнение из твиттора.

Оно интересное тем, что там девушки красят губы. А это уже очень сложная задача.
Как пишут умные подписчики, с рисунками на асфальте почти никто справиться не может, а тут еще более сложные отношения между объектами.

В общем Runway и Sora что-то приподотстали.

А гугль, как обычно, исполняет в диверсити: у всех китайцев "person" - это, скажем так, не азиаты, а у гугла - азиатазиатка. Хорошо хоть не мужчина...

Prompt:

A person stands in a bright, airy room, bathed in soft natural light streaming through a large window adorned with sheer white curtains. As they gaze into a shimmering mirror, their hand, elegantly manicured with a deep crimson polish, lifts a glossy lip applicator towards their lips. Their outfit, a flowing pastel blouse paired with chic high-waisted trousers, exudes effortless style, complemented by delicate gold jewelry that sparkles subtly in the light.

@cgevent

1.8K viewsSergey Tsyptsyn ️️, edited 22:00

2025/03/04 01:03:30
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>