Telegram Group & Telegram Channel
Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2174
Create:
Last Update:

Подарок от китайцев западному миру на Рождество: DeepSeek опубликовали третье поколение своих LLM, так ещё и полноценный технический отчёт (ссылка на PDF). Деталей в нём много, вот очень краткое саммари:

— модель гигантская, больше 650 миллиардов параметров, однако как и в прошлый раз применяется подход MoE, микстура экспертов. Поэтому каждое слово при генерации проходит примерно через 37 миллиардов параметров.
— они предлагают оптимальный способ применения моделей, для чего нужно... больше 340 GPU 🤷‍♂️(но это оптимальное, можно сильно меньше)
— модель тренировали относительно мало, так как обучение очень эффективно. На финальный запуск потратили менее $6M на 2048 GPU. При этом модель видела почти 15 триллионов токенов (как LLAMA3). Большая часть вычислений происходила в FP8 (E4M3; так как GPU быстрее считают)
— модель училась предсказывать сразу несколько следующих слов. Помимо улучшения качества это позволяет из коробки получить спекулятивное декодирование, то есть а) удешевить б) ускорить использование. У DeepSeek цены вообще копеечные по сравнению с другими провайдерами.
— данные для дообучения получались путём... генерации цепочек рассуждений моделью R1 (это их аналог o1). Это для математики, программирования и смежных областей, написание эссе и более традиционные нетехничекие задачи делали как обычно
— в конце статьи авторы даже дают рекомендации на будущее производителям чипов, что и как бы им хотелось видеть

Ссылку на веса давать не буду (а зачем, у вас что, есть 2x8H100?), но поиграться можно бесплатно на сайте тут.

Ну а метрики — вот:

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2174

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from ca


Telegram Сиолошная
FROM American