Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from kr