Telegram Group & Telegram Channel
Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2174
Create:
Last Update:

Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2174

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content.
from us


Telegram Сиолошная
FROM American