Telegram Group & Telegram Channel
Статьи-близнецы, которые вышли с разницей в неделю


s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1

SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.

Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.

Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.

В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.


LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO

Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты 😂

Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.

Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач 🤔
Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную 🤣

На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...

Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры 😁


Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/senior_augur/392
Create:
Last Update:

Статьи-близнецы, которые вышли с разницей в неделю


s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1

SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.

Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.

Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.

В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.


LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO

Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты 😂

Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.

Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач 🤔
Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную 🤣

На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...

Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры 😁


Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.

BY Старший Авгур


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/senior_augur/392

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries.
from br


Telegram Старший Авгур
FROM American