Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели
Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).
Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.
Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.
В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).
Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели
Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).
Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.
Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.
В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).
BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире
Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital.
from id