Telegram Group & Telegram Channel
Discovering Preference Optimization Algorithms with and for Large Language Models

Помните у меня был лонг про FunSearch, алгоритм от DeepMind? Если пропустили — обязательно рекомендую к прочтению (особенно в контексте вчерашних постов про поиск). Вкратце: LLM общего назначения нашла решение оптимизационной задачи, над которой бились математики, лучше, чем найденное человеком. Алгоритм в некотором роде универсальный и может быть применён к любой задаче, решение которой можно каким-то образом числено оценить и сказать, что вот это лучше, а это хуже. Звучит сложно, поэт ому ещё раз отсылаю к лонгу.

Так вот, ребята из Японии из стартапа Sakana предложили схожую идею, но для оптимизации самого процесса дообучения LLM. Как вы наверянка знаете, есть 3 этапа тренировки моделей вроде ChatGPT:
— предтренировка на терабайтах текста (~98% всех ресурсов тут)
— обучение следованию инструкциям
— обучения на человеческих предпочтениях (чтобы модель отвечала так, как мы хотим, и была наиболее полезной, а также знала границы своих навыков)

Последние 2 этапа иногда схлопывают в один, но не суть. При обучении на предпочтениях модель обычно оперирует парами сравнений: дан один промпт (запрос в LLM) и два ответа, и известно, какой ответ человек считает лучшим (или что они равны). OpenAI для обучения на таких данных используют метод PPO, который сами изобрели в 2017м. Но он требует очень качественных данных и тонкой настройки, и работает мало у кого вне OpenAI (может они и сами с него съехали, хз). В последний год появилось много аналогов, которые запустить куда проще — два самых популярных это DPO и KTO. Можете прочитать обзор у Ильи вот тут.

По сути, все эти методы отличаются одной вещью: функцией потерь, используемой во время дообучения, а сами аргументы функции одни и те же (вероятности, выдаваемые моделями - текущей и исходной. Итого 4 штуки на каждый токен — потому что у нас 2 варианта, «хороший» ответ и тот, что похуже). То есть вся разница в том, какой обучающий сигнал мы подаём модели при прочих равных.

То есть функция для оптимизации через генерацию разных вариантов у нас есть, осталось понять, как оценивать — и можно запускать аналог FunSearch. Важно, чтобы оценка была автоматической и быстрой — ведь потенциально нужно генерировать сотни функций. Для этого можно использовать саму LLM: у нас уже есть несколько разных автоматизированных бенчмарков, состоящих из 80 (MTBench) или 500 (ArenaHard) промптов и референсных ответов GPT-4. Если хотим понять, насколько хороша новая модель, то генерируем ответы на эти запросы, подаём в GPT-4 вместе с референсами и просим оценить по шкале с разными критериями. Немного шумно, но внезапно неплохо коррелирует с оценками живых людей.



group-telegram.com/seeallochnaya/1546
Create:
Last Update:

Discovering Preference Optimization Algorithms with and for Large Language Models

Помните у меня был лонг про FunSearch, алгоритм от DeepMind? Если пропустили — обязательно рекомендую к прочтению (особенно в контексте вчерашних постов про поиск). Вкратце: LLM общего назначения нашла решение оптимизационной задачи, над которой бились математики, лучше, чем найденное человеком. Алгоритм в некотором роде универсальный и может быть применён к любой задаче, решение которой можно каким-то образом числено оценить и сказать, что вот это лучше, а это хуже. Звучит сложно, поэт ому ещё раз отсылаю к лонгу.

Так вот, ребята из Японии из стартапа Sakana предложили схожую идею, но для оптимизации самого процесса дообучения LLM. Как вы наверянка знаете, есть 3 этапа тренировки моделей вроде ChatGPT:
— предтренировка на терабайтах текста (~98% всех ресурсов тут)
— обучение следованию инструкциям
— обучения на человеческих предпочтениях (чтобы модель отвечала так, как мы хотим, и была наиболее полезной, а также знала границы своих навыков)

Последние 2 этапа иногда схлопывают в один, но не суть. При обучении на предпочтениях модель обычно оперирует парами сравнений: дан один промпт (запрос в LLM) и два ответа, и известно, какой ответ человек считает лучшим (или что они равны). OpenAI для обучения на таких данных используют метод PPO, который сами изобрели в 2017м. Но он требует очень качественных данных и тонкой настройки, и работает мало у кого вне OpenAI (может они и сами с него съехали, хз). В последний год появилось много аналогов, которые запустить куда проще — два самых популярных это DPO и KTO. Можете прочитать обзор у Ильи вот тут.

По сути, все эти методы отличаются одной вещью: функцией потерь, используемой во время дообучения, а сами аргументы функции одни и те же (вероятности, выдаваемые моделями - текущей и исходной. Итого 4 штуки на каждый токен — потому что у нас 2 варианта, «хороший» ответ и тот, что похуже). То есть вся разница в том, какой обучающий сигнал мы подаём модели при прочих равных.

То есть функция для оптимизации через генерацию разных вариантов у нас есть, осталось понять, как оценивать — и можно запускать аналог FunSearch. Важно, чтобы оценка была автоматической и быстрой — ведь потенциально нужно генерировать сотни функций. Для этого можно использовать саму LLM: у нас уже есть несколько разных автоматизированных бенчмарков, состоящих из 80 (MTBench) или 500 (ArenaHard) промптов и референсных ответов GPT-4. Если хотим понять, насколько хороша новая модель, то генерируем ответы на эти запросы, подаём в GPT-4 вместе с референсами и просим оценить по шкале с разными критериями. Немного шумно, но внезапно неплохо коррелирует с оценками живых людей.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1546

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from br


Telegram Сиолошная
FROM American