Warning: Undefined array key "HTTP_CF_IPCOUNTRY" in /var/www/group-telegram/post.php on line 8

Notice: file_put_contents(): Write of 7219 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 4096 of 11315 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2133 -
Telegram Group & Telegram Channel
Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)



group-telegram.com/seeallochnaya/2133
Create:
Last Update:

Я устал. Каждый 5й коммент не только в моём, но и в других чатах — «а что правда модель X лучше чем модель Y? А мне другой человек говорил наоборот (или я сам попробовал и вышло не так)».

Давайте выскажу свою позицию:
1) Модели могут быть лучше на одних задачах и хуже на других. Нет универсально умной модели, которая в каждой отдельной вещи лучше остальных.
2) Это остаётся верным даже если кажется, что домен или тип навыка один и тот же. К примеру, программирование — ну чё тут, вот Python и Web, и там и там код в файлах, да? Нет. Одна модель может быть лучше в конкретно вашем проекте конкретно с Python, а другая лучше в Web-программировании (даже не всём, а, скажем, только фронтэнде на React)
3) Даже в одном и том же домене одна и та же модель может вызывать кардинально разные ощущения у пользователей, один скажет «по мне так топ, сравнивал с Claude», другой: «не, чёт не зашло». Почему? Моё основное объяснение — конкретные юзкейсы, сценарии использования и типы запросов.
4) Все бенчмарки всегда стоит воспринимать максимально буквально: конкретно ТАКАЯ-ТО задача в ТАКОЙ-ТО постановке и вот с ТАКИМИ ограничениями, и ничего более. Именно поэтому я всегда пишу детальные длинные посты, объясняющие процесс сбора и фильтрации данных, процесс разметки и оценки. И вам всегда рекомендую в это вникать и разбираться.
4.1) вот даже конкретный пример про o1 — в системной карточке по замерам самих OpenAI оказывалось, что во многих задачах она хуже o1-preview. Вы правда думаете что они бы выпустили такую модель? Как объяснили в твиттере, почему-то замеры делались не на финальном файле с параметрами, и оттого результат не лучший. Но чисто по цифрам смотреть так да, прогресса нет

Так как же быть? Что делать? Брать и проверять самому в своих задачах. Все бенчмарки и списки могут лишь дать примерное представление о том, какие модели в самом верху, и с кого можно начать. Например, модели Gemini много где прям не всплывают вообще, так что если видите такое же на бенчмарке, максимально приближённом к своим задачам (такой очень полезно найти для ваших задач) — можно пропускать их и приоритизировать модели других провайдеров.

Пробовать, пробовать, ещё раз пробовать. В идеале конечно собрать свой бенчмарк вообще (даже в 30-40 запросов), как тут, но многие тут не технари, поэтому не буду это рекомендовать прям каждому. Проведите с моделькой пару часов, всё увидите (кто-то по 3 запросам определяет, но такое порицаю — слишком разреженный сигнал).

... ну или просто используйте ChatGPT как золотой стандарт, и всё. В среднем это рациональное решение по кругу бенчмарков ;)

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2133

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. NEWS
from us



Deprecated: strtolower(): Passing null to parameter #1 ($string) of type string is deprecated in /var/www/group-telegram/post.php on line 326

Deprecated: strtoupper(): Passing null to parameter #1 ($string) of type string is deprecated in /var/www/group-telegram/function.php on line 148
Telegram Сиолошная
FROM