Telegram Group & Telegram Channel
У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.

Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.

Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.

В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.

Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.

В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?

Пейпер
Пять задач из бенча разных уровней сложности

@ai_newz



group-telegram.com/ai_newz/3409
Create:
Last Update:

У Epoch новый бенчмарк — Frontier Math, состоящий из задач, на решение которых у профессионалов могут уйти дни. Лучшие современные модели могут решить менее 2% задач, даже с доступом к Python и кучей токенов на размышления. Для составления бенчмарка привлекли более 60 математиков из разных областей; у них суммарно 14 золотых медалей IMO (Международной математической олимпиады) и одна Филдсовская премия.

Чтобы оказаться в бенчмарке, задача должна быть оригинальной и иметь ответ, который нельзя угадать с вероятностью более 1%, не проделав большую часть работы по решению задачи. В то же время ответ должен быть легко проверяем без вмешательства человека — поэтому у многих задач в качестве ответа используется целое число (но в некоторых случаев решение проверяется через SymPy), а если для решения задачи нужно запускать код, то время выполнения референсного решения ограничено одной минутой.

Небольшую выборку получившихся задач предоставили на оценку трём лауреатам Филдсовской премии: Ричарду Борчердсу, Уильяму Гауэрсу и Теренсу Тао, а также Эвану Чену, золотому медалисту IMO, который сейчас занимается подготовкой других к олимпиаде. Они назвали эти задачи "крайне сложными" и ожидают, что для создания моделей, которые хорошо себя в них показывают, нужны годы. Основная проблема — задачи крайне специализированные, и статей на тему может быть всего около десятка.

В то же время отмечают, что "решение таких задач отличается от доказательства теорем" и что система, которая может такое решить, хоть и не сможет заменить профессионального математика, но будет крайне полезным ассистентом. Но тут важна и цена вопроса — три дня на суперкомпьютере, которые нужны были для AlphaProof для решения некоторых задач с IMO, могут стоить дороже, чем годовая зарплата математика. А ведь задачи в бенче значительно сложнее.

Небольшой нюанс: Теренс Тао придумал несколько задач для бенчмарка, а Чен выступил соавтором статьи в качестве математика, с которым сотрудничали основные авторы.

В эпоху перенасыщения старыми бенчмарками нужны новые сложные бенчмарки, у которых есть шансы продержаться несколько лет. Оценивать модели по вайбам, конечно, весело, но без воспроизводимых бенчмарков непонятно: а есть ли у нас вообще прогресс или мы просто топчемся на месте?

Пейпер
Пять задач из бенча разных уровней сложности

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3409

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from vn


Telegram эйай ньюз
FROM American