Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).
Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).
Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.
Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.
At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm.
from hk