Telegram Group & Telegram Channel
Найди правильный SPIN к своему электрону LLM.

Новый метод self-play fine-tuning напомнил мне, как учили когда-то в AlphaZero. Кстати, тоже в режиме self-play.

Концептуально, метод заключается в итеративном обучении модели LLM с использованием ее предыдущей лучшей версии. Начинается обучение, конечно же , с простого SFT, тк нужна опорная модель. Далее уже генерации предыдущей модели, совместно и на кейсах аннотированных с человеком (RLHF) используются для улучшения политики поведения наследника LLM. Задача модели не только тюниться на таких примерах, но и различать генерации предка от реальных аннотаций - привет GAN и ELECTRA like подходы.
А именно, LLM генерирует свои собственные обучающие данные из своих предыдущих итераций и детектирует ответы, полученные по промтам из RLHF vs ответы из самогенерации.

Для оценки качества, авторы приводят замеры на: HuggingFace Open LLM, MT-Bench и наборе данных Big-Bench. Также проводят паралель с методом DPO и показывают up метрик по сравнению с ним. В основе экспов лежит модель zephyr-7b. Сравниваются с ней же в разных сетапах sft с spin/dpo и без. Абляции в статье приложены.

SPIN мне очень напоминает также curiculum learning - тк итеративно мы усложняем разницу между LLM генерациями предка и RLHF based генерациями на основе людских предпочтений, тк self-генерация с каждым шагом становится все более естественной, а модель сильной.
Также авторы выделяют меньшую зависимость от масштабирования объема данных и внешних источников для обучения, тк модель строит обучение итеративно на опорном датасете и self-generating.

Итого выложили статью, код, данные и модели.

Го пробовать!



group-telegram.com/dealerAI/496
Create:
Last Update:

Найди правильный SPIN к своему электрону LLM.

Новый метод self-play fine-tuning напомнил мне, как учили когда-то в AlphaZero. Кстати, тоже в режиме self-play.

Концептуально, метод заключается в итеративном обучении модели LLM с использованием ее предыдущей лучшей версии. Начинается обучение, конечно же , с простого SFT, тк нужна опорная модель. Далее уже генерации предыдущей модели, совместно и на кейсах аннотированных с человеком (RLHF) используются для улучшения политики поведения наследника LLM. Задача модели не только тюниться на таких примерах, но и различать генерации предка от реальных аннотаций - привет GAN и ELECTRA like подходы.
А именно, LLM генерирует свои собственные обучающие данные из своих предыдущих итераций и детектирует ответы, полученные по промтам из RLHF vs ответы из самогенерации.

Для оценки качества, авторы приводят замеры на: HuggingFace Open LLM, MT-Bench и наборе данных Big-Bench. Также проводят паралель с методом DPO и показывают up метрик по сравнению с ним. В основе экспов лежит модель zephyr-7b. Сравниваются с ней же в разных сетапах sft с spin/dpo и без. Абляции в статье приложены.

SPIN мне очень напоминает также curiculum learning - тк итеративно мы усложняем разницу между LLM генерациями предка и RLHF based генерациями на основе людских предпочтений, тк self-генерация с каждым шагом становится все более естественной, а модель сильной.
Также авторы выделяют меньшую зависимость от масштабирования объема данных и внешних источников для обучения, тк модель строит обучение итеративно на опорном датасете и self-generating.

Итого выложили статью, код, данные и модели.

Го пробовать!

BY Dealer.AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/dealerAI/496

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. For tech stocks, “the main thing is yields,” Essaye said. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from id


Telegram Dealer.AI
FROM American