Notice: file_put_contents(): Write of 2960 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 11152 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1980 -
Telegram Group & Telegram Channel
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.



group-telegram.com/seeallochnaya/1980
Create:
Last Update:

FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных техник/тем. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах (то есть нет концентрации вокруг каких-то техник, освоим которые можно решить добрую часть проблем).

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1980

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from no


Telegram Сиолошная
FROM American