group-telegram.com/data_secrets/6118
Last Update:
Там обновилась главная математическая арена для LLM, но есть нюанс
MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.
И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.
И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.
Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».
Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.
BY Data Secrets
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/rhHEF64UZwcFCfgTd62RMnzJ2AYfWE6u7odz1cyUczWNuEKF5s21W4rR74tArJbSxtwvyjBOg_SvmfQZq1Fc53V9wtc2WeCMBJrDydl9cLYiyY_Ll0QRqjocP3DbjHOqNk8cfMMO_eRMPSKrpda2WNWJhVxPCUEL06VQtI5QN6k-R--XG0iUkaJ0hrMNn9tvbBk6H1y6Eno4r1xDoGvQBf7THSdmXBWeX9f2HkNy7pQ1V3sQGoRPOpJmeNN5ytE-rmxJWkisTRvNb5QI7fvFxgiAgUkF0FLvt5ZVg80KuoJzgBisZp4Lpas3MpZExPPoDEmgTQX-WuWt2mxp7PNTQQ.jpg)
Share with your friend now:
group-telegram.com/data_secrets/6118