Telegram Group & Telegram Channel
Найди правильный SPIN к своему электрону LLM.

Новый метод self-play fine-tuning напомнил мне, как учили когда-то в AlphaZero. Кстати, тоже в режиме self-play.

Концептуально, метод заключается в итеративном обучении модели LLM с использованием ее предыдущей лучшей версии. Начинается обучение, конечно же , с простого SFT, тк нужна опорная модель. Далее уже генерации предыдущей модели, совместно и на кейсах аннотированных с человеком (RLHF) используются для улучшения политики поведения наследника LLM. Задача модели не только тюниться на таких примерах, но и различать генерации предка от реальных аннотаций - привет GAN и ELECTRA like подходы.
А именно, LLM генерирует свои собственные обучающие данные из своих предыдущих итераций и детектирует ответы, полученные по промтам из RLHF vs ответы из самогенерации.

Для оценки качества, авторы приводят замеры на: HuggingFace Open LLM, MT-Bench и наборе данных Big-Bench. Также проводят паралель с методом DPO и показывают up метрик по сравнению с ним. В основе экспов лежит модель zephyr-7b. Сравниваются с ней же в разных сетапах sft с spin/dpo и без. Абляции в статье приложены.

SPIN мне очень напоминает также curiculum learning - тк итеративно мы усложняем разницу между LLM генерациями предка и RLHF based генерациями на основе людских предпочтений, тк self-генерация с каждым шагом становится все более естественной, а модель сильной.
Также авторы выделяют меньшую зависимость от масштабирования объема данных и внешних источников для обучения, тк модель строит обучение итеративно на опорном датасете и self-generating.

Итого выложили статью, код, данные и модели.

Го пробовать!



group-telegram.com/dealerAI/496
Create:
Last Update:

Найди правильный SPIN к своему электрону LLM.

Новый метод self-play fine-tuning напомнил мне, как учили когда-то в AlphaZero. Кстати, тоже в режиме self-play.

Концептуально, метод заключается в итеративном обучении модели LLM с использованием ее предыдущей лучшей версии. Начинается обучение, конечно же , с простого SFT, тк нужна опорная модель. Далее уже генерации предыдущей модели, совместно и на кейсах аннотированных с человеком (RLHF) используются для улучшения политики поведения наследника LLM. Задача модели не только тюниться на таких примерах, но и различать генерации предка от реальных аннотаций - привет GAN и ELECTRA like подходы.
А именно, LLM генерирует свои собственные обучающие данные из своих предыдущих итераций и детектирует ответы, полученные по промтам из RLHF vs ответы из самогенерации.

Для оценки качества, авторы приводят замеры на: HuggingFace Open LLM, MT-Bench и наборе данных Big-Bench. Также проводят паралель с методом DPO и показывают up метрик по сравнению с ним. В основе экспов лежит модель zephyr-7b. Сравниваются с ней же в разных сетапах sft с spin/dpo и без. Абляции в статье приложены.

SPIN мне очень напоминает также curiculum learning - тк итеративно мы усложняем разницу между LLM генерациями предка и RLHF based генерациями на основе людских предпочтений, тк self-генерация с каждым шагом становится все более естественной, а модель сильной.
Также авторы выделяют меньшую зависимость от масштабирования объема данных и внешних источников для обучения, тк модель строит обучение итеративно на опорном датасете и self-generating.

Итого выложили статью, код, данные и модели.

Го пробовать!

BY Dealer.AI


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/dealerAI/496

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats.
from vn


Telegram Dealer.AI
FROM American