Telegram Group & Telegram Channel
RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем.

Всех с началом нового рабочего года.

Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.

На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:

1. STaR концепт для просеивания/фильтрации лучших рассуждений. Упоминается Дядей тут.

2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.

3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.

4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.

В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.



group-telegram.com/dealerAI/1054
Create:
Last Update:

RStaR - с лучших решений по нитке Small-LM на колпак рассуждения соберем.

Всех с началом нового рабочего года.

Daily top papers на huggingface за 8.01.2025 статья про то как бустануть рассуждения моделек на уровне бОльших конкурентов.

На самом деле, собрали все самое лучшее, что сработало воедино и нормально затюнили:

1. STaR концепт для просеивания/фильтрации лучших рассуждений. Упоминается Дядей тут.

2. Используется augmented-ToT. Похожий концепт мне рассказывал один kaggle GM в сореве по решению математических олимпиад. Суть в том,чтобы делать генерации рассуждений/решений задач в путон коде. Далее запускать такое и нерабочие имплементации забанить, попросив дебагнуть LMку. Топ-1 решение соревы тут.

3. Process preference model (PPM) в пику dpo и прочим rlhf работает на оценке предпочтения веток полученных с Q-values поиска по дереву из другой топовой статьи по ToT для решения мат.задач с MCTS. Пример расчета и формулы в этой статье.
На этих знаниях лучше или хуже развилка рассуждений учим pair ranking model. Забавно,что кому-то в 2023 году Дядя предлагал в nli формате делать контрастив поиск веток рассуждений.

4. Это self-evolution подходы для обучения. О похожих концептах Дядя писал тут и тут. Подобно spin или rest подходам хорошие стратегии возвращаются для самоулучшения в сет обучения, как хорошие примеры.

В итоге, авторы получили суп из рабочих хаков в той или иной задаче вокруг рассуждений и решений math problem. Получили жОский ап и влетели в топ по бенчам, догнав топовых конкурентов с большим размером моделей.

BY Dealer.AI




Share with your friend now:
group-telegram.com/dealerAI/1054

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from fr


Telegram Dealer.AI
FROM American