Telegram Group & Telegram Channel
У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.

Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.

Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.

В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.

Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.

В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?

Пейпер
Пять задач из бенча разных уровней сложности

@ai_newz



group-telegram.com/ai_newz/3409
Create:
Last Update:

У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.

Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.

Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.

В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.

Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.

В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?

Пейпер
Пять задач из бенча разных уровней сложности

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3409

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from sg


Telegram эйай ньюз
FROM American