Telegram Group & Telegram Channel
Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/monkeyinlaw/1645
Create:
Last Update:

Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?

BY Нейросети и Блендер






Share with your friend now:
group-telegram.com/monkeyinlaw/1645

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from us


Telegram Нейросети и Блендер
FROM American