Telegram Group & Telegram Channel
YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей

Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.

Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.

Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.

Как такое возможно?

* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.

* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.

* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.

Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.

@ai_newz



group-telegram.com/ai_newz/2814
Create:
Last Update:

YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей

Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.

Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.

Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.

Как такое возможно?

* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.

* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.

* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.

Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2814

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from vn


Telegram эйай ньюз
FROM American