Telegram Group & Telegram Channel
Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/monkeyinlaw/1647
Create:
Last Update:

Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?

BY Нейросети и Блендер






Share with your friend now:
group-telegram.com/monkeyinlaw/1647

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed.
from us


Telegram Нейросети и Блендер
FROM American