YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей
Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.
Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.
Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.
Как такое возможно?
* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.
* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.
* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.
Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.
YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей
Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.
Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.
Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.
Как такое возможно?
* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.
* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.
* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.
Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.
One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching.
from fr