Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare.
from nl