Telegram Group & Telegram Channel
RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем.

Всех с началом нового рабочего года.

Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.

На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:

1. STaR концепт для просеивания/фильтрации лучших рассуждений. Упоминается Дядей тут.

2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.

3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.

4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.

В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.



group-telegram.com/dealerAI/1054
Create:
Last Update:

RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем.

Всех с началом нового рабочего года.

Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.

На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:

1. STaR концепт для просеивания/фильтрации лучших рассуждений. Упоминается Дядей тут.

2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.

3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.

4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.

В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.

BY Dealer.AI




Share with your friend now:
group-telegram.com/dealerAI/1054

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform.
from tw


Telegram Dealer.AI
FROM American