Notice: file_put_contents(): Write of 3122 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 11314 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2133 -
Telegram Group & Telegram Channel
Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)



group-telegram.com/seeallochnaya/2133
Create:
Last Update:

Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2133

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Telegram Messenger Blocks Navalny Bot During Russian Election
from ye


Telegram Сиолошная
FROM American