Telegram Group & Telegram Channel
Вышли две новые опенсорсные LLM-ки для автоматического доказательства теорем.

-------
Вы помните, в прошлом году DeepMind делали заголовки AlphaProof'ом, который, как утверждалось, решил четыре задачи с последнего межнара, чего хватило бы на серебро. Но исходного кода нам не показали, лишь файлы со сгенерированными Lean-решениями этих четырёх задач.

Чуть позже DeepSeek выложили в опенсорс свою небольшую бям DeepSeek-Prover-V1.5 на 7B. Они реализовали версию метода Монте-Карло поиска по дереву всевозможных доказательств, как в шахматных движках. Модель занимается генерацией доказательства в Lean, а когда оно перестаёт компилироваться, она обрезает до первой ошибки и пробует с разными тактиками доказать промежуточные утверждения, которые приблизят её к цели. И поверх ещё обучение с подкреплением.

Главная проблема — в ограниченности обучающей выборки. Не так много кода люди написали в Lean; самый большой его источник — библиотека Mathlib.

Но в некотором роде мы решаем задачу, которая решает сама себя. Если получилось сгенерировать доказательство, которое компилируется, оно точно правильное, и можно добавить его в обучающую выборку. Поэтому можно генерировать много синтетических данных, обучаться на них, генерировать ещё больше, обучаться больше, и так далее.

-------
На этой неделе вышел Goedel-Prover, где авторы реализовали эту идею. Они начали с DeepSeek-Prover-V1.5 и построили цепочку из десяти моделей, последовательно генерирующих больше и больше верных доказательств. Последняя модель оказалась довольно сильной и выбила SOTA.

Другая недавняя статья предлагает Self-play Theorem Prover. Авторы берут тот же DeepSeek-Prover-V1.5 и делят его на conjecturer и prover. Идея в том, чтобы conjecturer переформулировал исходное утверждение, придумывал разные связанные гипотезы, а prover их доказывал. Они придумали интересный процесс обучения, чтобы заставить conjecturer изобретать нетривиальные, но и не совсем уж сложные гипотезы, которые действительно помогут в доказательстве. Они тоже выбивают SOTA (честно пишут, что восемь раз обучились на валидации).

Пруверы оценивают на трёх бенчмарках: школьные задачи (сейчас SOTA ~60%), университетские задачи — матан, линал, общая топология — сейчас SOTA 25%, и задачи с Putnam — олимпиада среди университетов — сейчас SOTA восемь задач (всего 664).

Забавная деталь о методологии: к каждой задаче генерируется несколько возможных решений, которые затем проверяются Lean'ом, и если нашлось подходящее — задача считается решённой. Например, 60% выше получаются, если разрешить DeepSeek-Prover-V1.5 генерировать по 102400 (сто тысяч) решений на задачу. А если только по 128, получается ~50%.

-----
Такие вот дела. И все эти модели маленькие, помещаются на одну домашнюю видеокарту. Можно запускать локально. Если теперь вставить туда по-настоящему большие модели, как Orion или грядущий GPT-5 со встроенным reasoning'ом могут получиться результаты поинтереснее. А пока чистая GPT-4o гордо решает ровно 1 (одну) задачу с Putnam.



group-telegram.com/razno_boy/279
Create:
Last Update:

Вышли две новые опенсорсные LLM-ки для автоматического доказательства теорем.

-------
Вы помните, в прошлом году DeepMind делали заголовки AlphaProof'ом, который, как утверждалось, решил четыре задачи с последнего межнара, чего хватило бы на серебро. Но исходного кода нам не показали, лишь файлы со сгенерированными Lean-решениями этих четырёх задач.

Чуть позже DeepSeek выложили в опенсорс свою небольшую бям DeepSeek-Prover-V1.5 на 7B. Они реализовали версию метода Монте-Карло поиска по дереву всевозможных доказательств, как в шахматных движках. Модель занимается генерацией доказательства в Lean, а когда оно перестаёт компилироваться, она обрезает до первой ошибки и пробует с разными тактиками доказать промежуточные утверждения, которые приблизят её к цели. И поверх ещё обучение с подкреплением.

Главная проблема — в ограниченности обучающей выборки. Не так много кода люди написали в Lean; самый большой его источник — библиотека Mathlib.

Но в некотором роде мы решаем задачу, которая решает сама себя. Если получилось сгенерировать доказательство, которое компилируется, оно точно правильное, и можно добавить его в обучающую выборку. Поэтому можно генерировать много синтетических данных, обучаться на них, генерировать ещё больше, обучаться больше, и так далее.

-------
На этой неделе вышел Goedel-Prover, где авторы реализовали эту идею. Они начали с DeepSeek-Prover-V1.5 и построили цепочку из десяти моделей, последовательно генерирующих больше и больше верных доказательств. Последняя модель оказалась довольно сильной и выбила SOTA.

Другая недавняя статья предлагает Self-play Theorem Prover. Авторы берут тот же DeepSeek-Prover-V1.5 и делят его на conjecturer и prover. Идея в том, чтобы conjecturer переформулировал исходное утверждение, придумывал разные связанные гипотезы, а prover их доказывал. Они придумали интересный процесс обучения, чтобы заставить conjecturer изобретать нетривиальные, но и не совсем уж сложные гипотезы, которые действительно помогут в доказательстве. Они тоже выбивают SOTA (честно пишут, что восемь раз обучились на валидации).

Пруверы оценивают на трёх бенчмарках: школьные задачи (сейчас SOTA ~60%), университетские задачи — матан, линал, общая топология — сейчас SOTA 25%, и задачи с Putnam — олимпиада среди университетов — сейчас SOTA восемь задач (всего 664).

Забавная деталь о методологии: к каждой задаче генерируется несколько возможных решений, которые затем проверяются Lean'ом, и если нашлось подходящее — задача считается решённой. Например, 60% выше получаются, если разрешить DeepSeek-Prover-V1.5 генерировать по 102400 (сто тысяч) решений на задачу. А если только по 128, получается ~50%.

-----
Такие вот дела. И все эти модели маленькие, помещаются на одну домашнюю видеокарту. Можно запускать локально. Если теперь вставить туда по-настоящему большие модели, как Orion или грядущий GPT-5 со встроенным reasoning'ом могут получиться результаты поинтереснее. А пока чистая GPT-4o гордо решает ровно 1 (одну) задачу с Putnam.

BY Матразнобой


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/razno_boy/279

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK.
from us


Telegram Матразнобой
FROM American