Telegram Group & Telegram Channel
DeepSeek Coder V2

Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).

Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).

Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.

Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.

Веса: 236B / 16B
Пейпер

@ai_newz



group-telegram.com/ai_newz/2886
Create:
Last Update:

DeepSeek Coder V2

Опенсорсная модель знающая 338 языков и умеющая кодить на уровне лучших проприетарных моделей - немного отстаёт лишь от Claude 3.5 Sonnet. Она в 3 раза быстрее LLaMa 70B из-за fine-grained MoE архитектуры и MLA, своего эффективного варианта Attention. Это позволяет сделать очень дешёвое API (дешевле Claude 3.5 Sonnet в 50 раз на генерации и в 35 раз на инпуте).

Для тренировки взяли чекпоинт на 4 триллиона токенов от оригинального DeepSeek V2 и дообучили его на 6 триллионах токенов микса кода (60%), математики (10%) и обычных токенов (30%).

Кроме большой модели на 236 миллиардов параметров выпустили ещё и Lite модель, которая кодит на уровне LLaMa 3 70B. Там всего 16 миллиардов параметров и полностью заполненный контекстом KV Cache занимает меньше 2 гигов, так что квантизированная до 4 бит модель прекрасно запускается на 11 гигабайтах видеопамяти.

Если вы уже пробовали использовать эту модель с ollama и она у вас сбивалась на китайский, то это из-за бага в промпте у ollama. Этот баг пофиксили сегодня утром.

Веса: 236B / 16B
Пейпер

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2886

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from us


Telegram эйай ньюз
FROM American