Telegram Group & Telegram Channel
MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.

Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."

То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.

Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда

Так что считаю, что это хороший бенчмарк :)

https://arxiv.org/abs/2410.07095v1

#datascience



group-telegram.com/datastorieslanguages/306
Create:
Last Update:

MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

Новый бенчмарк от OpenAI - взяли 75 соревнований с Kaggle и запустили по ним агентов. Минимум по 16.9% их подход получил хотя бы бронзу.

Результаты вполне интересные, но я бы хотел отметить другое:
"For each competition, we use the original dataset if publicly available, although Kaggle competitions often do not release the test set even after the competition ends. In such cases, we manually create new train and test splits based on the publicly available training data. We take care to ensure that the distributions of the original and reconstructed test sets are similar by checking that the example submission scores similarly on both sets."

То есть авторы часто сами делали разбиение на трейн и тест на основе публичных данных и старались сделать так, чтобы распределения данных совпадали. Как мы знаем, на Kaggle один из самых сложных аспектов соревнований - построить качественную валидацию, ибо тест нередко отличается от трейна. Так что сравнивать этот бенчмарк и реальные успехи в соревнованиях не совсем корректно.

Значит ли это, что бенчмарк плохо? Нет, я считаю, что бенчмарк вполне интересный.
• Любой бенчмарк, на котором модели не имеют очень высокое качество, полезен для развития моделей
• Даже если "реальное" качество ниже заявленного - это не так страшно. Ибо публикация этого бенчмарка - первый шаг к улучшению будущих подходов для решения подобных задач
• На Kaggle участники сами нередко ругаются на случаи, когда тест слишком уж отличается от трейна. И, с одной стороны, наличие отличий отражает реальную жизнь, с другой стороны, вся суть машинного обучения в поиске паттернов, а не в трюках и пробивании лидерборда

Так что считаю, что это хороший бенчмарк :)

https://arxiv.org/abs/2410.07095v1

#datascience

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/306

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from us


Telegram Data, Stories and Languages
FROM American