Telegram Group & Telegram Channel
Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.



group-telegram.com/data_secrets/6118
Create:
Last Update:

Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6118

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events."
from id


Telegram Data Secrets
FROM American