Notice: file_put_contents(): Write of 6513 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 14705 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
DLStories | Telegram Webview: dl_stories/842 -
Telegram Group & Telegram Channel
Наверное, многие слышали новость о том, что "AI завоевал серебро на межнаре по математике (IMO)" Так вот, я прочитала блогпост DeepMind по этому поводу и собрала главные поинты про модельку в пост.

Для начала, вводная по олимпиаде. IMO — это международная математическая олимпиада, высшая ступень олимпиад по математике. От каждой страны туда едет команда из шести человек. Олимпиада проходит в два дня, в каждый из дней дается три задачи и 4.5 часа на их решение. Задачи бывают четырех видов по темам: алгебра, теория чисел (тч), комбинаторика и геометрия. Каждая задача оценивается из 7 баллов, где 7 баллов — это полностью правильное решение задачи без ошибок и пробелов в рассуждении. Промежуточные баллы от 0 до 7 за решение получить при этом тоже можно. Например, если в решении пропущены пара незначительных моментов, поставят 5-6 баллов, а если задача не решена, но написаны идеи, потенциально ведущие к правильному решению, то можно получить до трех баллов.

Теперь, как устроена система для решения IMO от DeepMind и что там интересного:
Задачи по алгебре, тч и комбе решала модель AlphaProof, а по геометрии – другая, AlphaGeometry2. Всего модель решила 4 из 6 задач, все полностью правильно. Получается, набрала 7*4=28 баллов из возможных 36. Это — серебро на IMO 2024. Золото выдавалось от 29🤣

Теперь про модельки. Начнем с AlphaProof.
AlphaProof принимает на вход условие задачи и генерируют решение на формальном языке Lean. Получается, нужно как-то уметь переводить условие задачи, записанное на английском языке, на язык Lean. Для этого DeepMind взяли свою LLM Gemini и дообучили ее на эту задачу. Теперь условие задачи сначала попадает в Gemini, который переводит ее на Lean, и затем подает на вход AlphaProof.

AlphaProof — это RL-модель, практически идентичная AlphaZero, которая играла в Go. Работает AlphaProof так: сначала генерирует возможный ответ на задачу, а затем пытается доказать или опровергнуть правильность этого ответа, блуждая по пространству возможных утверждений-шагов доказательства (proof steps). Если удалось собрать верное доказательство, то этот пример используется для дообучения AlphaProof. Пишут, что до IMO модельку обучали на огромном пуле разных задач, а на самой олимпиаде делали вот что: генерировали разые вариации задач олимпиады, просили AlphaProof их решить, а верно найденные решения тоже использовали для дообучения AlphaProof на ходу. И так, пока не будет найдено решение основной задачи. Чем-то напоминает то, как люди тоже сначала стараются решить relaxed версии задач, прежде чем додуматься до решения основной.

Из интересного:
— на IMO были две задачи на алгебру, одна на тч, две на комбу и одна на геометрию. AlphaProof решила обе алгебры и тч, но не смогла решить ни одну комбинаторику 😂 В принципе, у человеков тоже обычно проблемы с комбой, судя по моему школьному опыту...
— время, потраченное AlphaProof на решение разных задач, очень разное. Одни задачи она решила за минуты, а на другую потратила три дня. Учитывая, что у людей на решение трех задач дается 4.5 часа, то сравнение модели с человеками-участниками олимпиады не очень честное;
— решения модель выдавала только на те задачи, которые точно полностью смогла решить. Частичные решения модели не оценивались. Вот тут нечестно в другую сторону: возможно, с частичными решениями задач на комбу модель могла бы получить и больше 28 баллов, претендуя и на золото;
— утверждается, что решения модели полностью в соответствии с правилами олимпиады проверяли два уважаемых математика: Prof Sir Timothy Gowers (золотой медалист IMO и филдсовский лауреат) и Dr Joseph Myers (дважды золотой медалист IMO и член комитета IMO). Так что свои 28 баллов моделька, кажется, получила честно.

Продолжение ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/dl_stories/842
Create:
Last Update:

Наверное, многие слышали новость о том, что "AI завоевал серебро на межнаре по математике (IMO)" Так вот, я прочитала блогпост DeepMind по этому поводу и собрала главные поинты про модельку в пост.

Для начала, вводная по олимпиаде. IMO — это международная математическая олимпиада, высшая ступень олимпиад по математике. От каждой страны туда едет команда из шести человек. Олимпиада проходит в два дня, в каждый из дней дается три задачи и 4.5 часа на их решение. Задачи бывают четырех видов по темам: алгебра, теория чисел (тч), комбинаторика и геометрия. Каждая задача оценивается из 7 баллов, где 7 баллов — это полностью правильное решение задачи без ошибок и пробелов в рассуждении. Промежуточные баллы от 0 до 7 за решение получить при этом тоже можно. Например, если в решении пропущены пара незначительных моментов, поставят 5-6 баллов, а если задача не решена, но написаны идеи, потенциально ведущие к правильному решению, то можно получить до трех баллов.

Теперь, как устроена система для решения IMO от DeepMind и что там интересного:
Задачи по алгебре, тч и комбе решала модель AlphaProof, а по геометрии – другая, AlphaGeometry2. Всего модель решила 4 из 6 задач, все полностью правильно. Получается, набрала 7*4=28 баллов из возможных 36. Это — серебро на IMO 2024. Золото выдавалось от 29🤣

Теперь про модельки. Начнем с AlphaProof.
AlphaProof принимает на вход условие задачи и генерируют решение на формальном языке Lean. Получается, нужно как-то уметь переводить условие задачи, записанное на английском языке, на язык Lean. Для этого DeepMind взяли свою LLM Gemini и дообучили ее на эту задачу. Теперь условие задачи сначала попадает в Gemini, который переводит ее на Lean, и затем подает на вход AlphaProof.

AlphaProof — это RL-модель, практически идентичная AlphaZero, которая играла в Go. Работает AlphaProof так: сначала генерирует возможный ответ на задачу, а затем пытается доказать или опровергнуть правильность этого ответа, блуждая по пространству возможных утверждений-шагов доказательства (proof steps). Если удалось собрать верное доказательство, то этот пример используется для дообучения AlphaProof. Пишут, что до IMO модельку обучали на огромном пуле разных задач, а на самой олимпиаде делали вот что: генерировали разые вариации задач олимпиады, просили AlphaProof их решить, а верно найденные решения тоже использовали для дообучения AlphaProof на ходу. И так, пока не будет найдено решение основной задачи. Чем-то напоминает то, как люди тоже сначала стараются решить relaxed версии задач, прежде чем додуматься до решения основной.

Из интересного:
— на IMO были две задачи на алгебру, одна на тч, две на комбу и одна на геометрию. AlphaProof решила обе алгебры и тч, но не смогла решить ни одну комбинаторику 😂 В принципе, у человеков тоже обычно проблемы с комбой, судя по моему школьному опыту...
— время, потраченное AlphaProof на решение разных задач, очень разное. Одни задачи она решила за минуты, а на другую потратила три дня. Учитывая, что у людей на решение трех задач дается 4.5 часа, то сравнение модели с человеками-участниками олимпиады не очень честное;
— решения модель выдавала только на те задачи, которые точно полностью смогла решить. Частичные решения модели не оценивались. Вот тут нечестно в другую сторону: возможно, с частичными решениями задач на комбу модель могла бы получить и больше 28 баллов, претендуя и на золото;
— утверждается, что решения модели полностью в соответствии с правилами олимпиады проверяли два уважаемых математика: Prof Sir Timothy Gowers (золотой медалист IMO и филдсовский лауреат) и Dr Joseph Myers (дважды золотой медалист IMO и член комитета IMO). Так что свои 28 баллов моделька, кажется, получила честно.

Продолжение ⬇️

BY DLStories


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/dl_stories/842

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from ua


Telegram DLStories
FROM American