Telegram Group & Telegram Channel
Вышли две новые опенсорсные LLM-ки для автоматического доказательства теорем.

-------
Вы помните, в прошлом году DeepMind делали заголовки AlphaProof'ом, который, как утверждалось, решил четыре задачи с последнего межнара, чего хватило бы на серебро. Но исходного кода нам не показали, лишь файлы со сгенерированными Lean-решениями этих четырёх задач.

Чуть позже DeepSeek выложили в опенсорс свою небольшую бям DeepSeek-Prover-V1.5 на 7B. Они реализовали версию метода Монте-Карло поиска по дереву всевозможных доказательств, как в шахматных движках. Модель занимается генерацией доказательства в Lean, а когда оно перестаёт компилироваться, она обрезает до первой ошибки и пробует с разными тактиками доказать промежуточные утверждения, которые приблизят её к цели. И поверх ещё обучение с подкреплением.

Главная проблема — в ограниченности обучающей выборки. Не так много кода люди написали в Lean; самый большой его источник — библиотека Mathlib.

Но в некотором роде мы решаем задачу, которая решает сама себя. Если получилось сгенерировать доказательство, которое компилируется, оно точно правильное, и можно добавить его в обучающую выборку. Поэтому можно генерировать много синтетических данных, обучаться на них, генерировать ещё больше, обучаться больше, и так далее.

-------
На этой неделе вышел Goedel-Prover, где авторы реализовали эту идею. Они начали с DeepSeek-Prover-V1.5 и построили цепочку из десяти моделей, последовательно генерирующих больше и больше верных доказательств. Последняя модель оказалась довольно сильной и выбила SOTA.

Другая недавняя статья предлагает Self-play Theorem Prover. Авторы берут тот же DeepSeek-Prover-V1.5 и делят его на conjecturer и prover. Идея в том, чтобы conjecturer переформулировал исходное утверждение, придумывал разные связанные гипотезы, а prover их доказывал. Они придумали интересный процесс обучения, чтобы заставить conjecturer изобретать нетривиальные, но и не совсем уж сложные гипотезы, которые действительно помогут в доказательстве. Они тоже выбивают SOTA (честно пишут, что восемь раз обучились на валидации).

Пруверы оценивают на трёх бенчмарках: школьные задачи (сейчас SOTA ~60%), университетские задачи — матан, линал, общая топология — сейчас SOTA 25%, и задачи с Putnam — олимпиада среди университетов — сейчас SOTA восемь задач (всего 664).

Забавная деталь о методологии: к каждой задаче генерируется несколько возможных решений, которые затем проверяются Lean'ом, и если нашлось подходящее — задача считается решённой. Например, 60% выше получаются, если разрешить DeepSeek-Prover-V1.5 генерировать по 102400 (сто тысяч) решений на задачу. А если только по 128, получается ~50%.

-----
Такие вот дела. И все эти модели маленькие, помещаются на одну домашнюю видеокарту. Можно запускать локально. Если теперь вставить туда по-настоящему большие модели, как Orion или грядущий GPT-5 со встроенным reasoning'ом могут получиться результаты поинтереснее. А пока чистая GPT-4o гордо решает ровно 1 (одну) задачу с Putnam.



group-telegram.com/razno_boy/279
Create:
Last Update:

Вышли две новые опенсорсные LLM-ки для автоматического доказательства теорем.

-------
Вы помните, в прошлом году DeepMind делали заголовки AlphaProof'ом, который, как утверждалось, решил четыре задачи с последнего межнара, чего хватило бы на серебро. Но исходного кода нам не показали, лишь файлы со сгенерированными Lean-решениями этих четырёх задач.

Чуть позже DeepSeek выложили в опенсорс свою небольшую бям DeepSeek-Prover-V1.5 на 7B. Они реализовали версию метода Монте-Карло поиска по дереву всевозможных доказательств, как в шахматных движках. Модель занимается генерацией доказательства в Lean, а когда оно перестаёт компилироваться, она обрезает до первой ошибки и пробует с разными тактиками доказать промежуточные утверждения, которые приблизят её к цели. И поверх ещё обучение с подкреплением.

Главная проблема — в ограниченности обучающей выборки. Не так много кода люди написали в Lean; самый большой его источник — библиотека Mathlib.

Но в некотором роде мы решаем задачу, которая решает сама себя. Если получилось сгенерировать доказательство, которое компилируется, оно точно правильное, и можно добавить его в обучающую выборку. Поэтому можно генерировать много синтетических данных, обучаться на них, генерировать ещё больше, обучаться больше, и так далее.

-------
На этой неделе вышел Goedel-Prover, где авторы реализовали эту идею. Они начали с DeepSeek-Prover-V1.5 и построили цепочку из десяти моделей, последовательно генерирующих больше и больше верных доказательств. Последняя модель оказалась довольно сильной и выбила SOTA.

Другая недавняя статья предлагает Self-play Theorem Prover. Авторы берут тот же DeepSeek-Prover-V1.5 и делят его на conjecturer и prover. Идея в том, чтобы conjecturer переформулировал исходное утверждение, придумывал разные связанные гипотезы, а prover их доказывал. Они придумали интересный процесс обучения, чтобы заставить conjecturer изобретать нетривиальные, но и не совсем уж сложные гипотезы, которые действительно помогут в доказательстве. Они тоже выбивают SOTA (честно пишут, что восемь раз обучились на валидации).

Пруверы оценивают на трёх бенчмарках: школьные задачи (сейчас SOTA ~60%), университетские задачи — матан, линал, общая топология — сейчас SOTA 25%, и задачи с Putnam — олимпиада среди университетов — сейчас SOTA восемь задач (всего 664).

Забавная деталь о методологии: к каждой задаче генерируется несколько возможных решений, которые затем проверяются Lean'ом, и если нашлось подходящее — задача считается решённой. Например, 60% выше получаются, если разрешить DeepSeek-Prover-V1.5 генерировать по 102400 (сто тысяч) решений на задачу. А если только по 128, получается ~50%.

-----
Такие вот дела. И все эти модели маленькие, помещаются на одну домашнюю видеокарту. Можно запускать локально. Если теперь вставить туда по-настоящему большие модели, как Orion или грядущий GPT-5 со встроенным reasoning'ом могут получиться результаты поинтереснее. А пока чистая GPT-4o гордо решает ровно 1 (одну) задачу с Putnam.

BY Матразнобой


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/razno_boy/279

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from ru


Telegram Матразнобой
FROM American