Telegram Group & Telegram Channel
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.



group-telegram.com/dlinnlp/1745
Create:
Last Update:

Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241

Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.

Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем update_step % N == 0, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели
3. Продолжаем тренироваться

Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.

Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥

В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.

BY DL in NLP






Share with your friend now:
group-telegram.com/dlinnlp/1745

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from id


Telegram DL in NLP
FROM American