group-telegram.com/data_secrets/6238
Last Update:
Первый день опенсорса от DeepSeek
В конце прошлой недели ребята пообещали, что с 24 по 28 февраля выложат в открытый доступ пять репозиториев из их внутренней экосистемы.
Сегодня показали проект FlashMLA – оптимизированные GPU-ядра, которые крутятся в проде систем DeepSeek.
MLA – это multi latent attention, метод, позволяющий сокращать потребление памяти за счет сжатия матриц ключей и значений в трансформерах. Метод активно используется в моделях DeepSeek и в целом очень перспективный, но готовых оптимизаций для него пока не так много. Так что FlashMLA это готовое решение для бодрого инференса.
Проект поддерживает bfloat16, поэтому тут и скорость, и точность. Код годится для всей серии Hopper, то есть для H100, H800 и тд.
github.com/deepseek-ai/FlashMLA
BY Data Secrets

Share with your friend now:
group-telegram.com/data_secrets/6238