Telegram Group & Telegram Channel
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.



group-telegram.com/dlinnlp/1745
Create:
Last Update:

Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.

BY DL in NLP






Share with your friend now:
group-telegram.com/dlinnlp/1745

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed.
from no


Telegram DL in NLP
FROM American