Telegram Group & Telegram Channel
Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/monkeyinlaw/1646
Create:
Last Update:

Давайте попробуем мой небольшой bench сравнение с o3-mini-high и Claude 3.7(без подписки)

📕 Входные данные:
— У нас есть картинка из Instagram от IdFlood креатив кодера.
— Я хочу как можно быстрее и качественней воссоздать её имея небольшой опыт в p5js и python
— У меня есть всего 1 час для этой задачи. Включая ожидания кода, сравнение и рефактор.
— Для скорости проверки кода я взял python и colab для быстрых тестов.

☺️ Процесс:
— Промпт у нас один и тот же: картинка + небольшое описание.
— Обе модели генерировали код с минимальным количеством багов, при этом у Claude больше визуальной красоты, а у o3-mini-high больше приятной документации и описания параметров, которые я могу менять для улучшения визуала.
— Визуальный анализ результата и я подаю новый промпт для рефактора кода.

📕 Результат (Картинка 2 и Картинка 3):
— У меня было больше попыток в o3-mini-high (7 итераций), чем в 3.7 Sonnet (3 итерации). Потому финальный результат будет после завершения еще 4 итераций в 3.7 Sonnet. Ждите вторую часть
— o3-mini-high дает больше информации и идей, при этом 3.7 Sonnet сразу учитывает мое желание, чтобы результат был без plot информации, дает интереснее цветовую схему и геометрию.
— Обе модели проигнорировали сильное желание создать Flow effect(эффект потока) в линиях генерации. Для этого я скорее всего пойду к экспертам, чтобы понять какие два вида шума мне нужно скрестить, чтобы получить эффект реки.

🐱 Выводы:
— Обе модели не дали мне финальный результат, но улучшили мое понимание что мне нужно делать, например в Blender для того чтобы повторить эффект. (Какую именно логику использовать для написания геометрических нод с нуля, как использовать расстояние и шум для создания flow эффекта, как в оригинале, эффекта реки или потока)

— Стало понятнее, что новые модели все ближе собирают данные к нашему времени, поэтому мы получаем более актуальную информацию, больше актуального кода. Но беда таких моделях прекрасно показывает проблему людей, которые хотят использовать такие модели для ресерча находясь на краю науки. Пример с Плазма канала, где он пытался найти информацию для ресерча, а ChatGPT закинул ему его же ролик.

🐈‍⬛ Отдельный вывод:
Так уж случилось, что для меня самый сильный benchmark на супер интеллигентность модели это спросить написать скрипт по Python API по Геометрическим Нодам для 4.2 версии Blender. И пока все результаты всех доступных моделей постоянно с ошибками.

— Claude 3.7 так же плох с Python API по Геометрическим нодами. Так как в интернете очень мало информации по Python API для Геометрических нод, а официальная документация пока такого уровня, что мне сложно её понять. Как и любой модели. Я конечно могу сесть и расписать это все, разобраться, сделать юзерфрендли, запостить в инет, а потом это соберется как датка для новой модели и модель наконец-то разберется в сложной документации. (Или все же это оказался человек? Который разобрался и поделился?)

📕 Вся информация:
Делюсь чатами, к сожалению, OpenAI не дает делиться чатами с картинками в отличие от Claude, потому вот приятный вид claude 3.7 Sonnet:
LINK
И pastebin OpenAI o3-mini-high:
LINK

📕 Colab со всеми тестами:
— Вы можете легко перепроверить все результаты. Или подсказать мне как же улучшить этот код, чтобы получить более идеальный вариант под референс.
https://colab.research.google.com/drive/1jt3LQNwJmtE7cl6jlRPKohnpMyGNl1vH?usp=sharing

Похож результат в итоге хоть чуть на референс? И как вам бенчмарк такой?

BY Нейросети и Блендер






Share with your friend now:
group-telegram.com/monkeyinlaw/1646

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from id


Telegram Нейросети и Блендер
FROM American