Telegram Group & Telegram Channel
Deepseek V2: топ за свои деньги

Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого.

Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза меньше памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша.

Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic.

У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536.

Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena.

Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию.

Демка
Пейпер
Базовая модель
Чат версия

@ai_newz



group-telegram.com/ai_newz/2663
Create:
Last Update:

Deepseek V2: топ за свои деньги

Что-то в опенсорс в последнее время попадает прям поток MoE моделей, вот и DeepSeek V2 из них. 236B параметров, из которых 21B - активных. По качеству - между Mixtral 8x22B и LLaMa 3 70B, но при этом в 2-4 раза дешевле этих моделей у самых дешёвых провайдеров, всего лишь 14 центов за млн токенов инпута и 28 за млн токенов на выход. Лицензия модели MIT, так что до конца недели будет штук пять разных провайдеров дешевле этого.

Главная особенность - Multi-Head Latent Attention (MLA). От обычного Multi-Head Attention (MHA) он отличается механизмом сжатия KV Cache, где он хранится как низкоранговая матрица, откуда и куда проецируется когда его нужно использовать или обновить. Из экспериментов, по качеству это работает лучше MHA, при этом используя в 4 раза меньше памяти чем обычные Grouped Query Attention конфиги. Из нюансов - авторам пришлось изобрести новый вариант RoPE чтобы это всё заработало, так как обычный RoPE такого количества линейных проекций туда и назад переживать решительно отказывается. Если честно, я не совсем понимаю почему это работает и почему нету абляций для dense моделей, но интересно как это будет сочетаться с квантизацией KV кэша.

Размер контекста - 128k. Тренировали это всё на 8 триллионах токенов в течении 1.5 миллиона часов на H800 (китайская версия H100). Это уровень компьюта тренировки LLaMa 3 8B и примерно в 3 раза больше чем у Snowflake Arctic.

У модели 162 эксперта, из которых 2 перманентно активные, а из остальных 160-ти на каждый токен выбирается 6. Хочу отметить что эксперты там крайне маленькие – у каждого размерность всего 1536.

Соотношение цены и качества прекрасное, если все подтвердится на ChatBot Arena.

Из минусов — размер. В BF16 для локального инференса нужно 8x A100 с 80GB VRAM. Вся надежда на квантизацию.

Демка
Пейпер
Базовая модель
Чат версия

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/2663

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon."
from ye


Telegram эйай ньюз
FROM American