Telegram Group Search
Forwarded from Сиолошная
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI

Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).

Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных моделей. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах.

Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.

Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.
В среду после выборов я рассказывал про векторные поля (по программе попало), а там как раз conservative vector fields. А еще можно нарисовать векторное поле < -y, x >, и получить... хм, неоднозначную картинку, которая много где запрещена. Ясное дело, от такого я удержался, ну и говорил больше gradient vector fields вместо conservative.

(для любителей строгих определений - это конечно разные понятия, и про conservative надо говорить про интегралы по гомотопичным друг другу путям; то есть, gradient = точные формы, conservative = замкнутые)

А про то, чем стране грозит результат выборов, вот например юридический разбор худшего сценария, по-русски https://open.substack.com/pub/igorslabykh/p/1b2
Исследование, проведенное в Норвегии, показало, что приобретение электровелосипеда (e-bike) значительно увеличивает ежедневное использование велосипеда. Среднее расстояние, преодолеваемое на велосипеде, возросло с 2,1 км до 9,2 км, что составляет увеличение на 340%. Доля поездок на велосипеде в общем объеме транспортных средств также увеличилась с 17% до 49%.

https://www.sciencedaily.com/releases/2015/05/150520083254.htm

У меня рост использования ещё больше - практически с нуля:) по нашим горам только на ебайке и можно!

(фото ебайка - в сториз прямо сейчас)
из черновиков Софьи Ковалевской (взято из книги Michèle Audin, "Remembering Sofya Kovalevskaya")
Я lawful neutral, но хочу еще один моник в офис
Китайская LLM в своем репертуаре. Трумана никто не называл Винни-Пухом, а вообще на этот же вопрос "which political leader is nicknamed Winnie the Pooh" модель выбирает случайного политического лидера (каждый раз разного), и примерно вот так галлюцинирует
Я знаю, что это законно, но это все равно долбаное читерство.

Кстати, знакомый математик в судах по этим вопросам выступал экспертом.
Forwarded from One Big Union (Ян Веселов)
Уже как-то рассказывал о том, как республиканцы в Северной Каролине обеспечили себе преимущество за счет джерримендеринга - изменения границ избирательных округов. Судя по результатам выборов, именно за счет этого республиканцы смогут сохранить свое большинство в Палате представителей.

В 2020 году в Северной Каролине на выборах в Палату представителей демократы набрали 50% голосов, а республиканцы 49,4%. Но из-за нарезки избирательных округов первые получили 5 мест, а вторые - 8. После переписи населения Северная Каролина получила еще одно место в Палате представителей и местное заксобрание разработало новую карту. Но верховный суд штата решил, что она составлена слишком уж в пользу республиканцев и потребовал составить новую. Эффект было явный: на выборах 2022 года республиканцы набрали 52% голосов, демократы - 47,7%, а обе партии получили по семь мест.

В том же году прошли выборы в верховный суд штата и республиканцы получили там большинство. Новый состав суда отменил прошлое решение, разрешив легислатуре нарисовать новую карту. По итогу на последних выборах республиканцы получают 52,7% голосов и 10 мест, а демократы - 42,8% и всего 4 места. Учитывая, что сейчас республиканцы рассчитывают где-то на 220-221 место в Палате представителей, большинство им обеспечит как раз 3 дополнительных места от Северной Каролины, полученные за счет джерримендеринга.

Еще более красочная картина на выборах в законодательное собрание штата. Там демократы набрали большинство голосов избирателей (51,1%), но получат лишь 49 или около 40% мест. Ну а республиканцы с меньшинством голосов (47,6%) получают 71 или примерно 60% мест. Что еще более примечательно, в 2022 году у демократов было 42% голосов, у республиканцев 57%, а вот распределение мест было таким же, как и на выборах этого года.
как же люди без дифференциальных форм мучаются...
Это слишком жестоко для домашки? (Если мы не проходили формулу для ротора в цилиндрических координатах, И НЕ ПЛАНИРУЕМ)
https://arxiv.org/abs/2409.11582

Эпиграф понравился, и картинки хорошие.

Результат - по трем многоугольным тайлам невозможно понять (undecidable), можно ли ими замостить плоскость. Раньше было 5, а теперь вот 3.
Какой будет самый частый неправильный ответ?
Кто, не подглядывая, знает площадь поверхности тора? (радиус маленького сечения = a, расстояние от маленького сечения до центра вращения = b)
Anonymous Poll
11%
Конечно, знаю!
32%
Э?
58%
Я не знаю, но могу вывести за 5 минут
Я скорее согласен, что математикам так делать (провокаторством заниматься) плохо, а вот экономистам, преподающим теорию игр, норм?
2024/12/24 02:48:38
Back to Top
HTML Embed Code: