Telegram Group & Telegram Channel
Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).

Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.

Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.

В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).



group-telegram.com/blockchainRF/11352
Create:
Last Update:

Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).

Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.

Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.

В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире




Share with your friend now:
group-telegram.com/blockchainRF/11352

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups.
from ms


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American