Telegram Group & Telegram Channel
​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience



group-telegram.com/datastorieslanguages/422
Create:
Last Update:

​​Absolute Zero: Reinforced Self-play Reasoning with Zero Data

На прошлой неделе вышло несколько статей об использовании RL для reasoning... и некоторые из них, прямо скажем, сомнительные.

Возьмём статью Absolute Zero: Reinforced Self-play Reasoning with Zero Data

Изначальная идея неплохая - модель сама предлагает задачи для дообучения SFT и сама на них учится. Генерится три типа задач: deduction (модели дают питоновский код и input в него, просят придумать output; abduction (модели дают питоновский код и output, просят придумать подходящий input); induction (модели дают input и output, просят придумать подходящий код).

Уверяют, что если взять Qwen2.5-7B и Qwen2.5-7B-Coder и дотренировать их с таким подходом, качество заметно вырастет.

У меня есть несколько сомнений:
Промпты для моделей в сумме занимают строк 300. Вопрос: если бы авторы не генерили синтетику и дотренировывали модели, а просто делали инференс модели со схожими промптами - была бы заметная разница или нет?
• Некоторые примеры в статье содержат ошибки (см на скриншоте). Модель выдала правильный ответ, но рассуждения неправильные.
• В одном месте они утверждают, что модель "became aware", но без деталей того, что именно было подано модели на вход, обсуждать это несерьёзно.

В целом подход интересный и потенциально перспективный. Но слишком уж мутно описано.

#datascience

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/422

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from us


Telegram Data, Stories and Languages
FROM American