Telegram Group & Telegram Channel
Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.



group-telegram.com/data_secrets/6118
Create:
Last Update:

Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6118

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup.
from es


Telegram Data Secrets
FROM American