YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей
Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.
Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.
Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.
Как такое возможно?
* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.
* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.
* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.
Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.
YaFSDP - опенсорс либа от Яндекса для ускорения тренировки больших моделей
Современные LLM тренируются на огромных кластерах доходящих до десятков тысяч GPU. А так как один в поле не воин - им нужно постоянно общаться между собой, при этом когда в одну видеокарту веса моделей не влезают, их нужно шардить - распределять между многими видеокартами.
Основной метод шардинга сейчас - FSDP, он встроен в PyTorch и им пользуются абсолютно все. Но и он не идеален - имеет свойство выделять больше памяти, чем нужно, и простаивать на бэквард пассе.
Ребята из Яндекса решили эти проблемы и у них вышел YaFSDP - оптимизированная имплементация FSDP, лучшая из открыто доступных - на тренировке LLaMa 3 70B ускорение достигает 26%, при этом потребление памяти - меньше! А в Яндексе полная интеграция YaFSDP вообще позволила ускорить тренировку на 45%. Это напрямую транслируется в удешевление претрейна больших моделей.
Как такое возможно?
* Стратегические преалокации памяти позволяют сильно сбавить оверхед и использовать именно столько памяти, сколько нужно.
* Упорядочивание использования ресурсов так, чтобы на них не было сразу нескольких претендентов уменьшает простой видеокарты - не нужно ждать пока ресурсы освободятся.
* Оптимизированная нормализация уменьшает количество копирований на бэквард пассе.
Библиотека уже доступна на Github, с лицензией Apache 2.0 - то есть может пользоваться кто угодно, как угодно и абсолютно бесплатно.
Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. In 2018, Russia banned Telegram although it reversed the prohibition two years later. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats.
from us