Telegram Group & Telegram Channel
Найди правильный SPIN к своему электрону LLM.

Новый метод self-play fine-tuning напомнил мне, как учили когда-то в AlphaZero. Кстати, тоже в режиме self-play.

Концептуально, метод заключается в итеративном обучении модели LLM с использованием ее предыдущей лучшей версии. Начинается обучение, конечно же , с простого SFT, тк нужна опорная модель. Далее уже генерации предыдущей модели, совместно и на кейсах аннотированных с человеком (RLHF) используются для улучшения политики поведения наследника LLM. Задача модели не только тюниться на таких примерах, но и различать генерации предка от реальных аннотаций - привет GAN и ELECTRA like подходы.
А именно, LLM генерирует свои собственные обучающие данные из своих предыдущих итераций и детектирует ответы, полученные по промтам из RLHF vs ответы из самогенерации.

Для оценки качества, авторы приводят замеры на: HuggingFace Open LLM, MT-Bench и наборе данных Big-Bench. Также проводят паралель с методом DPO и показывают up метрик по сравнению с ним. В основе экспов лежит модель zephyr-7b. Сравниваются с ней же в разных сетапах sft с spin/dpo и без. Абляции в статье приложены.

SPIN мне очень напоминает также curiculum learning - тк итеративно мы усложняем разницу между LLM генерациями предка и RLHF based генерациями на основе людских предпочтений, тк self-генерация с каждым шагом становится все более естественной, а модель сильной.
Также авторы выделяют меньшую зависимость от масштабирования объема данных и внешних источников для обучения, тк модель строит обучение итеративно на опорном датасете и self-generating.

Итого выложили статью, код, данные и модели.

Го пробовать!



group-telegram.com/dealerAI/496
Create:
Last Update:

Найди правильный SPIN к своему электрону LLM.

Новый метод self-play fine-tuning напомнил мне, как учили когда-то в AlphaZero. Кстати, тоже в режиме self-play.

Концептуально, метод заключается в итеративном обучении модели LLM с использованием ее предыдущей лучшей версии. Начинается обучение, конечно же , с простого SFT, тк нужна опорная модель. Далее уже генерации предыдущей модели, совместно и на кейсах аннотированных с человеком (RLHF) используются для улучшения политики поведения наследника LLM. Задача модели не только тюниться на таких примерах, но и различать генерации предка от реальных аннотаций - привет GAN и ELECTRA like подходы.
А именно, LLM генерирует свои собственные обучающие данные из своих предыдущих итераций и детектирует ответы, полученные по промтам из RLHF vs ответы из самогенерации.

Для оценки качества, авторы приводят замеры на: HuggingFace Open LLM, MT-Bench и наборе данных Big-Bench. Также проводят паралель с методом DPO и показывают up метрик по сравнению с ним. В основе экспов лежит модель zephyr-7b. Сравниваются с ней же в разных сетапах sft с spin/dpo и без. Абляции в статье приложены.

SPIN мне очень напоминает также curiculum learning - тк итеративно мы усложняем разницу между LLM генерациями предка и RLHF based генерациями на основе людских предпочтений, тк self-генерация с каждым шагом становится все более естественной, а модель сильной.
Также авторы выделяют меньшую зависимость от масштабирования объема данных и внешних источников для обучения, тк модель строит обучение итеративно на опорном датасете и self-generating.

Итого выложили статью, код, данные и модели.

Го пробовать!

BY Dealer.AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/dealerAI/496

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. 'Wild West' DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries.
from es


Telegram Dealer.AI
FROM American