Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241
Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.
Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем
3. Продолжаем тренироваться
Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.
Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥
В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241
Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.
Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем
update_step % N == 0
, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели3. Продолжаем тренироваться
Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.
Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥
В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
group-telegram.com/dlinnlp/1744
Create:
Last Update:
Last Update:
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241
Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.
Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем
3. Продолжаем тренироваться
Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.
Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥
В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
Sanyal et al., [UT Austin]
arxiv.org/abs/2306.03241
Исследования того а что будет если мы просто усредним несколько моделей всегда были слегка безумной, но очень эффективной идеей улучшения качества моделей. В этой статье авторы показывают что это можно делать не только с финальными чекпоинтами, но и во время тренировки.
Авторы предлагают алгоритм LAWA (LAtest Weight Averaging) который выглядит так:
1. В начале тренируемся как обычно, сохраняем чекпоинты модели каждые N~1000 итераций
2. Когда мы достигаем
update_step % N == 0
, берём последние M~10 чекпоинтов и усредняем их, заменяем веса модели3. Продолжаем тренироваться
Метод очень похож на EMA, но тут мы выполняем его не только для тестирования модели, но и для тренировки.
Интересные моменты: оптимальный lr для LAWA заметно выше чем оптимальный lr для обычной тренировки, а также LAWA позволяет избежать нестабильностей лосса когда он внезапно взрывается 🔥
В конце хотелось бы ещё сказать про подробности экспериментов. Порог входа в рисёч предтренировки это ~8xA100. Но есть альтернатива: Pythia и LLM360 зарелизили не только финальный чекпоинт, но и чекпоинты каждую 1000 итераций, а также порядок данных. Это означает что вы можете "вклиниться" со своим методом в середину тренировки и проверить как он работает в начале/середине/конце обучения. Это относительно дешево и так и были проведены большинство экспериментов.
BY DL in NLP
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/L0aaC5-AbP0rjwQpKgJn_NblmXBRS-5F2b0WpZebxhfOWgzLSVHU5gqc9vumM0kj_j_EfztLZkLa4pClGYTF8OdVpxiPy35drn6G41BVfY4IIfptix_rvTha8_cfUNBVwDaf2biiscwUhYEtkoR1N7mSS90NoCC8ArN51AE2hiyWBlebKiZePmYmN3hmlfMQF_yF6OBNlarKQD3mxIdbRp8-mIcgn0j8gg7lBKp3-7-E9f3pLR8A2GIeL3SHLtZO1W1iludBOzACdm9LDvC26KrDWUuSFhboCLtDNg7AN9t2r_3piEAU08oQ6ttJNyWkS8ZpmEJdn8-Zo9SMqcZ27Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/QU0XtmU8AmGv9Cysxjxa8VfMgh3BjF4t4LzrhgkiSV8ZFAVyOL0yUuxQOgotbGcyrR6g6yzrF-O4wVgkXHGfrhgbKTDy6vTJ2O0q8FVXW9j8iN8SlxuYCckBSQd6MvetOEB86gvDOPjqTF8HH3728jJplShDqEMPem5JTyDkUUeFwzGkHM2-3BF7Xl24vPmiP0_w3lrmSeBBxUa7oSgPMt4ZQRTr03JDBk4V2aBeqxBB5Z1pl0KwO7hd5qA5phI_CPw5cMqZlHSHBo6xplZtAvtOWp7EQnTGXAbjO-i1q95ihConBynHbmoYngoIuwV4UHX_ct9e6S9X0XS_2FxWGw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/B0nKk8iKhvsSgoKGD7M561zwctvbUsv1JK3DyS0yWTGCDxOVjDyylFWUXRAHNbCwoSxU426Jxaq-iVdWDiRoBASyqxCKOe51P3RbRMx8D5FKVkL77Xwt7PZNC7MtcjvgcqXl4ZefL5Naipz0I5RvdBc0Rnc_vxHN8vrMoc54XFJ8Xd50yMiJkpWLss_sxD0gEW4fyWg20eazjJvvn3PbZrznKOxGsGgAD7z6anqKlR8sDPDoS9VkD1fqn6aDea8lbEpot3wHWNDTrb_ZDqMrjit8vBNXr9LNFch3lD88_xcxElC0nLLN1d3YOOxjq2PG0lCS4UYHtB6lXgy9C_er1g.jpg)
Share with your friend now:
group-telegram.com/dlinnlp/1744