Telegram Group & Telegram Channel
Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).

Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.

Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.

В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).



group-telegram.com/blockchainRF/11352
Create:
Last Update:

Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).

Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.

Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.

В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире




Share with your friend now:
group-telegram.com/blockchainRF/11352

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from us


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American