Telegram Group & Telegram Channel
Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)
72👍245❤‍🔥60🤡19🔥12👨‍💻10👎5🌚53🎉2💩2



group-telegram.com/seeallochnaya/2133
Create:
Last Update:

Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2133

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. NEWS The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted.
from ye


Telegram Сиолошная
FROM American