Telegram Group & Telegram Channel
Forwarded from Сиолошная
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных моделей. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах.

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.



group-telegram.com/qtasep/2913
Create:
Last Update:

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных моделей. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах.

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.

BY qtasep 💛💙


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/qtasep/2913

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from ms


Telegram qtasep 💛💙
FROM American