Telegram Group & Telegram Channel
Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/monkeyinlaw/1647
Create:
Last Update:

Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?

BY Нейросети и Блендер






Share with your friend now:
group-telegram.com/monkeyinlaw/1647

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. READ MORE Although some channels have been removed, the curation process is considered opaque and insufficient by analysts.
from ar


Telegram Нейросети и Блендер
FROM American