This media is not supported in your browser
VIEW IN TELEGRAM
Когда смотришь как работает твой сложный код в реальном продукте полностью написанный Нейросетью
Original
Original
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Тут Денис пробовал Veo 2
🐈⬛ Я живу в бедной Сербии, да и сам не богат. Потому я так же попробовал Veo 2 от Google DeepMind и поделаюсь вам ссылкой где пробовать дешевле:
На Fal.AI — 5 секунд стоят 1.25$ + 0.25$ за каждую следующую.
А теперь переходим к тестам. Для промптинга я взял статью от гугла про Veo 2 и заметил в их примерах стиль T5XXL(спасибо FLUX), не долгая думая этот вариант для промптов и возьмем.
Для тестов я создал себе бенчмарк из таких сцен:
1. Коллажная анимация в стиле Граффити
Интересно как Veo 2 работает с нестандартной анимацией и коллажами
2. 3D рендер мистического существа с Оленем наездником в доспехах, на заднем плане много планет и звезд
Это отсылка к этой работе
3. Сцена в кафе, где один из героев проливает чашку кофе
Я видел как все радовались физике в Veo 2, давайть проверим сцену, которую можно легко снять в реальности, то есть супер простая задача для продакшана
4. Сцена, где персонаж делает двойное сальто на батутах
А вот эта сцена хоть и не простая, но достаточно важная для боевиков, где нужно подчеркнуть, что наш персонаж изи делает сальто отстреливаясь от всех. Ну и конечно же сила трансформеров в Veo 2, позволит перенести это двойное сальто потом на других персонажей, верно? Что может пойти не так?
Промпты целиком в комментариях
☺️ Наверное из всего что получилось, мне больше всего понравилась коллажная анимация. Возможно если сильнее доработать промпт и, например, задача сделать заставку для youtube канала или перебивку, или заставку для сторис из поездки, этот бакс выглядит неплохой тратой.
😐 Про сальто — это будет проблемой для всех text2video моделей. Из двух попыток, каждая ужасна. И так будет очень часто из-за проблем с даткой и архитектурой видеомоделей. А у меня в том же ютьюбе, столько видео про андеграунд соревнования на батутах. Но видимо эти данные не брались в обучение (что наверное хорошо) или не размечались вовсе. А сцену, которую я скину в комменты интересно когда сможет получится в видеомоделях, например, с миньоном персонажем?
Финал
💰 В моем случае тесты стоили 11.25$
Для создания анимационного арта я пожалуй выберу Blender.
На Fal.AI — 5 секунд стоят 1.25$ + 0.25$ за каждую следующую.
(А зачем мне 8 секунд для тестов? Когда по 5 все можно понять)
А теперь переходим к тестам. Для промптинга я взял статью от гугла про Veo 2 и заметил в их примерах стиль T5XXL(спасибо FLUX), не долгая думая этот вариант для промптов и возьмем.
Для тестов я создал себе бенчмарк из таких сцен:
1. Коллажная анимация в стиле Граффити
Интересно как Veo 2 работает с нестандартной анимацией и коллажами
2. 3D рендер мистического существа с Оленем наездником в доспехах, на заднем плане много планет и звезд
Это отсылка к этой работе
3. Сцена в кафе, где один из героев проливает чашку кофе
Я видел как все радовались физике в Veo 2, давайть проверим сцену, которую можно легко снять в реальности, то есть супер простая задача для продакшана
4. Сцена, где персонаж делает двойное сальто на батутах
А вот эта сцена хоть и не простая, но достаточно важная для боевиков, где нужно подчеркнуть, что наш персонаж изи делает сальто отстреливаясь от всех. Ну и конечно же сила трансформеров в Veo 2, позволит перенести это двойное сальто потом на других персонажей, верно? Что может пойти не так?
Промпты целиком в комментариях
Финал
(Столько же в моем бюджете стоит купить еды на два дня для двух человек в Lidl)
Для создания анимационного арта я пожалуй выберу Blender.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)
📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.
☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.
📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet.
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.
🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)
— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.
🐈⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.
— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)
📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK
📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing
Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet.
Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)
— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.
— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing
Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Опенсоурсный Wan вышел и я в наглую потырил примеры видео из разных мест
Не зря недавно промпт бенчмарки сделал для Veo2, сравню скоро по тем же промптам.
📕 Kijai уже запилил ноды для ComfyUI
Не зря недавно промпт бенчмарки сделал для Veo2, сравню скоро по тем же промптам.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM