Forwarded from Сиолошная
FrontierMath: A Benchmark for Evaluating Advanced Mathematical Reasoning in AI
Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).
Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных моделей. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах.
Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.
Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.
Самый сложный бенчмарк по математике для LLM от Epoch AI. Если сейчас зачастую у новых наборов проблем передовые нейронки решают 30-50% задач, то в этом суммарно все они, от Grok-2 до o1-preview, решили... 4 задачи (каждая по отдельности меньше 2% от общего числа). Почему? Потому что для создания задач были привлечены одни из ведущих математиков в своих областях, более 60 штук — 14 из них обладают золотыми медалями международной олимпиады по математике, и один обладатель Филдсовской премии (угадайте кто).
Задачи покрывают почти все топики современной математики, и некоторые из них строятся на совсем недавних открытиях и исследованиях. Самой главной проблемой, мешающей LLM'кам справляться с задачами, авторы называют экстремальную ограниченность в тренировочных данных для отдельных моделей. Terence Tao сказал, что «релевантные данные практически не существуют. Мы говорим о примерно десятке статей с релевантными вещами». Причём, они везде очень разные — суммарно авторы насчитали около 200 уникальных техник, применяемых в решениях, при этом самые часто встречающиеся пары техник попались всего лишь в 3 задачах.
Однако у бенчмарка есть пара недостатков:
1) задачи были сделаны таким образом, чтобы их можно было автоматически проверять; это сразу же накладывает ограничения на формат и гибкость. В частности, не проверяется ход решения (но угадать ответ практически нереально).
2) список задач не включает в себя доказательства, ответом является формула или число/набор чисел.
3) из-за сложности задач и времени, необходимых на решение не автору (несколько часов, и то не всегда справляются), не проводилась перепроверка решений и ответов каждой задачи, и не замерялось качество «усреднённого» математика. Аналитику провели по 25 задачам и прикинули, что ошибок не более 10%.
Эксперименты: авторы написали средней длинны промпт, который подсказывает модели, в каком формате ожидаются ответы, и что можно попробовать сделать отправку кода несколько раз. Если происходит ошибка — модели дают обратную связь, и процесс продолжается до тех пор, пока не будет достигнут лимит в 10'000 токенов. Модели ведут себя по разному, например o1-preview в среднем делает 1.29 попыток ответить, а Grok 2 — 3.81. Лимит токенов тоже немного мешает — gpt-4o упиралась в него в 45% решений, а ведь это даже не o1 с её длинными цепочками рассуждений.
В среду после выборов я рассказывал про векторные поля (по программе попало), а там как раз conservative vector fields. А еще можно нарисовать векторное поле < -y, x >, и получить... хм, неоднозначную картинку, которая много где запрещена. Ясное дело, от такого я удержался, ну и говорил больше gradient vector fields вместо conservative.
(для любителей строгих определений - это конечно разные понятия, и про conservative надо говорить про интегралы по гомотопичным друг другу путям; то есть, gradient = точные формы, conservative = замкнутые)
А про то, чем стране грозит результат выборов, вот например юридический разбор худшего сценария, по-русски https://open.substack.com/pub/igorslabykh/p/1b2
(для любителей строгих определений - это конечно разные понятия, и про conservative надо говорить про интегралы по гомотопичным друг другу путям; то есть, gradient = точные формы, conservative = замкнутые)
А про то, чем стране грозит результат выборов, вот например юридический разбор худшего сценария, по-русски https://open.substack.com/pub/igorslabykh/p/1b2
Substack
Inbox | Substack
Исследование, проведенное в Норвегии, показало, что приобретение электровелосипеда (e-bike) значительно увеличивает ежедневное использование велосипеда. Среднее расстояние, преодолеваемое на велосипеде, возросло с 2,1 км до 9,2 км, что составляет увеличение на 340%. Доля поездок на велосипеде в общем объеме транспортных средств также увеличилась с 17% до 49%.
https://www.sciencedaily.com/releases/2015/05/150520083254.htm
У меня рост использования ещё больше - практически с нуля:) по нашим горам только на ебайке и можно!
(фото ебайка - в сториз прямо сейчас)
https://www.sciencedaily.com/releases/2015/05/150520083254.htm
У меня рост использования ещё больше - практически с нуля:) по нашим горам только на ебайке и можно!
(фото ебайка - в сториз прямо сейчас)
ScienceDaily
More cycling with e-bikes
Electric bikes make people cycle longer and more often, a new study concludes, adding that the effect is best on women. A new study focused on how people use the electric bike and how the electric bike may contribute to a decrease in motor traffic.
Forwarded from воспоминания математиков
из черновиков Софьи Ковалевской (взято из книги Michèle Audin, "Remembering Sofya Kovalevskaya")
Я знаю, что это законно, но это все равно долбаное читерство.
Кстати, знакомый математик в судах по этим вопросам выступал экспертом.
Кстати, знакомый математик в судах по этим вопросам выступал экспертом.
Forwarded from One Big Union (Ян Веселов)
Уже как-то рассказывал о том, как республиканцы в Северной Каролине обеспечили себе преимущество за счет джерримендеринга - изменения границ избирательных округов. Судя по результатам выборов, именно за счет этого республиканцы смогут сохранить свое большинство в Палате представителей.
В 2020 году в Северной Каролине на выборах в Палату представителей демократы набрали 50% голосов, а республиканцы 49,4%. Но из-за нарезки избирательных округов первые получили 5 мест, а вторые - 8. После переписи населения Северная Каролина получила еще одно место в Палате представителей и местное заксобрание разработало новую карту. Но верховный суд штата решил, что она составлена слишком уж в пользу республиканцев и потребовал составить новую. Эффект было явный: на выборах 2022 года республиканцы набрали 52% голосов, демократы - 47,7%, а обе партии получили по семь мест.
В том же году прошли выборы в верховный суд штата и республиканцы получили там большинство. Новый состав суда отменил прошлое решение, разрешив легислатуре нарисовать новую карту. По итогу на последних выборах республиканцы получают 52,7% голосов и 10 мест, а демократы - 42,8% и всего 4 места. Учитывая, что сейчас республиканцы рассчитывают где-то на 220-221 место в Палате представителей, большинство им обеспечит как раз 3 дополнительных места от Северной Каролины, полученные за счет джерримендеринга.
Еще более красочная картина на выборах в законодательное собрание штата. Там демократы набрали большинство голосов избирателей (51,1%), но получат лишь 49 или около 40% мест. Ну а республиканцы с меньшинством голосов (47,6%) получают 71 или примерно 60% мест. Что еще более примечательно, в 2022 году у демократов было 42% голосов, у республиканцев 57%, а вот распределение мест было таким же, как и на выборах этого года.
В 2020 году в Северной Каролине на выборах в Палату представителей демократы набрали 50% голосов, а республиканцы 49,4%. Но из-за нарезки избирательных округов первые получили 5 мест, а вторые - 8. После переписи населения Северная Каролина получила еще одно место в Палате представителей и местное заксобрание разработало новую карту. Но верховный суд штата решил, что она составлена слишком уж в пользу республиканцев и потребовал составить новую. Эффект было явный: на выборах 2022 года республиканцы набрали 52% голосов, демократы - 47,7%, а обе партии получили по семь мест.
В том же году прошли выборы в верховный суд штата и республиканцы получили там большинство. Новый состав суда отменил прошлое решение, разрешив легислатуре нарисовать новую карту. По итогу на последних выборах республиканцы получают 52,7% голосов и 10 мест, а демократы - 42,8% и всего 4 места. Учитывая, что сейчас республиканцы рассчитывают где-то на 220-221 место в Палате представителей, большинство им обеспечит как раз 3 дополнительных места от Северной Каролины, полученные за счет джерримендеринга.
Еще более красочная картина на выборах в законодательное собрание штата. Там демократы набрали большинство голосов избирателей (51,1%), но получат лишь 49 или около 40% мест. Ну а республиканцы с меньшинством голосов (47,6%) получают 71 или примерно 60% мест. Что еще более примечательно, в 2022 году у демократов было 42% голосов, у республиканцев 57%, а вот распределение мест было таким же, как и на выборах этого года.
https://arxiv.org/abs/2409.11582
Эпиграф понравился, и картинки хорошие.
Результат - по трем многоугольным тайлам невозможно понять (undecidable), можно ли ими замостить плоскость. Раньше было 5, а теперь вот 3.
Эпиграф понравился, и картинки хорошие.
Результат - по трем многоугольным тайлам невозможно понять (undecidable), можно ли ими замостить плоскость. Раньше было 5, а теперь вот 3.
qtasep 💛💙
https://arxiv.org/abs/2409.11582 Эпиграф понравился, и картинки хорошие. Результат - по трем многоугольным тайлам невозможно понять (undecidable), можно ли ими замостить плоскость. Раньше было 5, а теперь вот 3.
А все потому (как я понял), что на сцепке можно симулировать состояние машины Тьюринга
Кто, не подглядывая, знает площадь поверхности тора? (радиус маленького сечения = a, расстояние от маленького сечения до центра вращения = b)
Anonymous Poll
11%
Конечно, знаю!
32%
Э?
58%
Я не знаю, но могу вывести за 5 минут
Я скорее согласен, что математикам так делать (провокаторством заниматься) плохо, а вот экономистам, преподающим теорию игр, норм?