Telegram Group & Telegram Channel
Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.



group-telegram.com/data_secrets/6118
Create:
Last Update:

Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6118

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers.
from it


Telegram Data Secrets
FROM American