Telegram Group & Telegram Channel
Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2174
Create:
Last Update:

Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2174

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from ms


Telegram Сиолошная
FROM American