Telegram Group & Telegram Channel
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.



group-telegram.com/dlinnlp/1746
Create:
Last Update:

Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.

BY DL in NLP






Share with your friend now:
group-telegram.com/dlinnlp/1746

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. False news often spreads via public groups, or chats, with potentially fatal effects. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours.
from it


Telegram DL in NLP
FROM American