Telegram Group & Telegram Channel
Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).

Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.

Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.

В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).



group-telegram.com/blockchainRF/11352
Create:
Last Update:

Андрей Карпаты:сегодня нет нормального способа проверить, как хорошо работают новые ИИ-модели

Андрей Карпаты, который покинул OpenAI в прошлом году, говорит, что сейчас сложно понять, насколько хороши новые ИИ-модели (типа GPT-4.5).

Он жалуется, что нет нормального способа их проверить. Старые тесты (например, MMLU) уже устарели и не показывают реальную картину. Новые тесты (типа SWE-Bench) слишком узкие и тоже не дают полной оценки. Есть ещё площадка Chatbot Arena, где модели сравнивают, но она уже не очень работает, потому что разработчики специально "подгоняют" свои ИИ под неё, и результаты получаются необъективными.

Карпаты сам пробовал оценивать модели "на глаз" ,по ощущениям, но признаёт, что это ненадёжно, потому что можно обмануться своими ожиданиями или взять слишком мало примеров.

В итоге он говорит: "Я не знаю, как правильно проверить, что эти ИИ умеют на самом деле". Это проблема не только для него, а для всей сферы ИИ прямо сейчас (на март 2025 года).

BY Все о блокчейн/мозге/space/WEB 3.0 в России и мире




Share with your friend now:
group-telegram.com/blockchainRF/11352

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. I want a secure messaging app, should I use Telegram? The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised.
from us


Telegram Все о блокчейн/мозге/space/WEB 3.0 в России и мире
FROM American