Telegram Group & Telegram Channel
Data Secrets
Первый день опенсорса от DeepSeek

В конце прошлой недели ребята пообещали, что с 24 по 28 февраля выложат в открытый доступ пять репозиториев из их внутренней экосистемы.

Сегодня показали проект FlashMLA – оптимизированные GPU-ядра, которые крутятся в проде систем DeepSeek.

MLA – это multi latent attention, метод, позволяющий сокращать потребление памяти за счет сжатия матриц ключей и значений в трансформерах. Метод активно используется в моделях DeepSeek и в целом очень перспективный, но готовых оптимизаций для него пока не так много. Так что FlashMLA это готовое решение для бодрого инференса.

Проект поддерживает bfloat16, поэтому тут и скорость, и точность. Код годится для всей серии Hopper, то есть для H100, H800 и тд.

github.com/deepseek-ai/FlashMLA



group-telegram.com/data_secrets/6238
Create:
Last Update:

Первый день опенсорса от DeepSeek

В конце прошлой недели ребята пообещали, что с 24 по 28 февраля выложат в открытый доступ пять репозиториев из их внутренней экосистемы.

Сегодня показали проект FlashMLA – оптимизированные GPU-ядра, которые крутятся в проде систем DeepSeek.

MLA – это multi latent attention, метод, позволяющий сокращать потребление памяти за счет сжатия матриц ключей и значений в трансформерах. Метод активно используется в моделях DeepSeek и в целом очень перспективный, но готовых оптимизаций для него пока не так много. Так что FlashMLA это готовое решение для бодрого инференса.

Проект поддерживает bfloat16, поэтому тут и скорость, и точность. Код годится для всей серии Hopper, то есть для H100, H800 и тд.

github.com/deepseek-ai/FlashMLA

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/6238

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. For tech stocks, “the main thing is yields,” Essaye said.
from us


Telegram Data Secrets
FROM American