Первый релиз — FlashMLA, Flash Attention для моделей DeepSeek. Дело в том, что модели DeepSeek используют свой отдельный тип аттеншна — Multi-head Latent Attention, которому нужно в разы меньше памяти на KV кэш, по сравнению с обычным Group Query Attention, что сильно удешевляет генерацию токенов.
Обратная сторона медали - существующие кастомные кернелы для инференса несовместимы с моделями DeepSeek, из-за чего приходится использовать более медленный торч. Быстрые кастомные кернелы для MLA означают более эффективный инференс у апи провайдеров, что часто перерастает в падение цен.
Обещают ещё четыре релиза на этой неделе, что именно релизнут - непонятно. Про всех них я напишу большой обзорный пост в конце недели.
Первый релиз — FlashMLA, Flash Attention для моделей DeepSeek. Дело в том, что модели DeepSeek используют свой отдельный тип аттеншна — Multi-head Latent Attention, которому нужно в разы меньше памяти на KV кэш, по сравнению с обычным Group Query Attention, что сильно удешевляет генерацию токенов.
Обратная сторона медали - существующие кастомные кернелы для инференса несовместимы с моделями DeepSeek, из-за чего приходится использовать более медленный торч. Быстрые кастомные кернелы для MLA означают более эффективный инференс у апи провайдеров, что часто перерастает в падение цен.
Обещают ещё четыре релиза на этой неделе, что именно релизнут - непонятно. Про всех них я напишу большой обзорный пост в конце недели.
Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts.
from nl