✔️Native Sparse Attention - революция в механизмах внимания от Deepseek.
NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели. NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения. Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
✔️Native Sparse Attention - революция в механизмах внимания от Deepseek.
NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели. NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения. Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from us