Telegram Group & Telegram Channel
DeepSeek moment

Нельзя ничего не сказать про DeepSeek. Эти ребята просто супер молодцы — так задизраптить всё поле мало кому удавалось. Ну OpenAI со своим ChatGPT, потом Цукерберг с Llama в опенсорсе, теперь вот DeepSeek.

DeepSeek сумели обучить модели хорошего качества по ценам на порядок ниже конкурентов.

Во-первых, DeepSeek-V3 (https://github.com/deepseek-ai/DeepSeek-V3), включает две модели DeepSeek-V3-Base и чат-версию DeepSeek-V3. Обе являются MoE с 671B параметров всего и 37B активных. Не для простых смертных модели, надо иметь неслабую multi-GPU конфигурацию что-то типа 8 H200 (но есть сжатые варианты от разных товарищей). По качеству где-то уровня GPT-4o 0513 и Claude-3.5-Sonnet-1022 и выше LLaMA-3.1 405B.

Есть разные оценки, сколько стоило обучение Ламы 3.1 405B. В самой работе (https://arxiv.org/abs/2407.21783) сказано, что использовалось до 16,384 H100 и упоминается предобучение в 54 дня (но там и другие этапы обучения были). Одна из не самых высоких оценок говорит, что стоить должно было порядка $60M (https://x.com/_LouiePeters/status/1816443587053092917?lang=en).

Про DeepSeek-V3 известно чуть конкретнее. Они использовали H800, урезанный для Китая экспортный вариант H100, и они сами пишут, что для полного обучения потребовалось 2.788M H800 GPU-часов, что соответствует $5.576M при цене аренды H800 в $2 за час.

Ну типа на десятичный порядок меньше. При сравнении с OpenAI наверное разница ещё больше.

Это как с Индией, которая отправляла аппараты на Марс и Луну дешевле, чем в Голливуде фильмы про космос делаются: марсианский Mangalyaan за $74M и лунный Chandrayaan-3 за $75M против фильма “Гравитация” за $100M (https://www.business-standard.com/india-news/what-makes-india-s-space-missions-cost-less-than-hollywood-sci-fi-movies-124110400430_1.html).

Во-вторых, DeepSeek-R1 (https://github.com/deepseek-ai/DeepSeek-R1), модели с ризонингом по типу OpenAI o1 или Google Gemini Thinking. В семействе две модели: DeepSeek-R1-Zero и DeepSeek-R1, обе построены на базе DeepSeek-V3-Base и такого же большого размера.

DeepSeek-R1-Zero (по аналогии с AlphaZero) обучена чистым RL (Group Relative Policy Optimization, GRPO — вариант PPO из другой их статьи, https://arxiv.org/abs/2402.03300), без SFT. Я думаю это очень значимый результат, как в Го оказалось, что можно без человеческих партий, так и здесь постепенно оказывается. Из интересного, во время обучения у модели случился “aha moment”, когда в цепочке рассуждений модель выдала “Wait, wait. Wait. That’s an aha moment I can flag here.” и пересмотрела изначальный подход к решению задачи.

Zero хороша, но иногда уходит в повторы, смешивает языки, не очень читабельна. DeepSeek-R1 перед RL обучена на небольшом (тысячи) количестве CoT примеров, они это называют Cold start data, чтобы дать более качественную начальную точку для RL. Далее тот же Reasoning-oriented RL, что и у Zero. Далее SFT на ризонинг (600k) и не-ризонинг (200k) данных. И потом ещё дополнительный этап RL. Эта модель сравнима с OpenAI-o1-1217.

Из того, что не привело к успеху: Process Reward Model (PRM) и Monte Carlo Tree Search (MCTS).

Также выпущена куча dense дистиллятов (1.5B, 7B, 8B, 14B, 32B, 70B) из R1 на базе Qwen и Llama. Эти сопоставимы с OpenAI-o1-mini.

HuggingFace взялся за Open R1 (https://github.com/huggingface/open-r1), полностью открытое воспроизведение DeepSeek R1. В кои-то веки не Китайские исследователи догоняют западных, а наоборот!

Есть и другая репликация, из Гонконга, от NLP Group @ HKUST (https://github.com/hkust-nlp/simpleRL-reason).

Но и этого DeepSeek показалось мало, и сегодня они выпустили ещё и Janus-Pro, развитие предыдущего Janus (https://github.com/deepseek-ai/Janus) с улучшенным обучением, данными и большим размером. Это мультимодальная моделька на 1B и 7B, умеет принимать на вход текст и картинки и на выходе тоже выдавать текст и картинки. На генерации вроде как бьют Dalle-3, SDXL, SD3-Medium.



group-telegram.com/gonzo_ML/3239
Create:
Last Update:

DeepSeek moment

Нельзя ничего не сказать про DeepSeek. Эти ребята просто супер молодцы — так задизраптить всё поле мало кому удавалось. Ну OpenAI со своим ChatGPT, потом Цукерберг с Llama в опенсорсе, теперь вот DeepSeek.

DeepSeek сумели обучить модели хорошего качества по ценам на порядок ниже конкурентов.

Во-первых, DeepSeek-V3 (https://github.com/deepseek-ai/DeepSeek-V3), включает две модели DeepSeek-V3-Base и чат-версию DeepSeek-V3. Обе являются MoE с 671B параметров всего и 37B активных. Не для простых смертных модели, надо иметь неслабую multi-GPU конфигурацию что-то типа 8 H200 (но есть сжатые варианты от разных товарищей). По качеству где-то уровня GPT-4o 0513 и Claude-3.5-Sonnet-1022 и выше LLaMA-3.1 405B.

Есть разные оценки, сколько стоило обучение Ламы 3.1 405B. В самой работе (https://arxiv.org/abs/2407.21783) сказано, что использовалось до 16,384 H100 и упоминается предобучение в 54 дня (но там и другие этапы обучения были). Одна из не самых высоких оценок говорит, что стоить должно было порядка $60M (https://x.com/_LouiePeters/status/1816443587053092917?lang=en).

Про DeepSeek-V3 известно чуть конкретнее. Они использовали H800, урезанный для Китая экспортный вариант H100, и они сами пишут, что для полного обучения потребовалось 2.788M H800 GPU-часов, что соответствует $5.576M при цене аренды H800 в $2 за час.

Ну типа на десятичный порядок меньше. При сравнении с OpenAI наверное разница ещё больше.

Это как с Индией, которая отправляла аппараты на Марс и Луну дешевле, чем в Голливуде фильмы про космос делаются: марсианский Mangalyaan за $74M и лунный Chandrayaan-3 за $75M против фильма “Гравитация” за $100M (https://www.business-standard.com/india-news/what-makes-india-s-space-missions-cost-less-than-hollywood-sci-fi-movies-124110400430_1.html).

Во-вторых, DeepSeek-R1 (https://github.com/deepseek-ai/DeepSeek-R1), модели с ризонингом по типу OpenAI o1 или Google Gemini Thinking. В семействе две модели: DeepSeek-R1-Zero и DeepSeek-R1, обе построены на базе DeepSeek-V3-Base и такого же большого размера.

DeepSeek-R1-Zero (по аналогии с AlphaZero) обучена чистым RL (Group Relative Policy Optimization, GRPO — вариант PPO из другой их статьи, https://arxiv.org/abs/2402.03300), без SFT. Я думаю это очень значимый результат, как в Го оказалось, что можно без человеческих партий, так и здесь постепенно оказывается. Из интересного, во время обучения у модели случился “aha moment”, когда в цепочке рассуждений модель выдала “Wait, wait. Wait. That’s an aha moment I can flag here.” и пересмотрела изначальный подход к решению задачи.

Zero хороша, но иногда уходит в повторы, смешивает языки, не очень читабельна. DeepSeek-R1 перед RL обучена на небольшом (тысячи) количестве CoT примеров, они это называют Cold start data, чтобы дать более качественную начальную точку для RL. Далее тот же Reasoning-oriented RL, что и у Zero. Далее SFT на ризонинг (600k) и не-ризонинг (200k) данных. И потом ещё дополнительный этап RL. Эта модель сравнима с OpenAI-o1-1217.

Из того, что не привело к успеху: Process Reward Model (PRM) и Monte Carlo Tree Search (MCTS).

Также выпущена куча dense дистиллятов (1.5B, 7B, 8B, 14B, 32B, 70B) из R1 на базе Qwen и Llama. Эти сопоставимы с OpenAI-o1-mini.

HuggingFace взялся за Open R1 (https://github.com/huggingface/open-r1), полностью открытое воспроизведение DeepSeek R1. В кои-то веки не Китайские исследователи догоняют западных, а наоборот!

Есть и другая репликация, из Гонконга, от NLP Group @ HKUST (https://github.com/hkust-nlp/simpleRL-reason).

Но и этого DeepSeek показалось мало, и сегодня они выпустили ещё и Janus-Pro, развитие предыдущего Janus (https://github.com/deepseek-ai/Janus) с улучшенным обучением, данными и большим размером. Это мультимодальная моделька на 1B и 7B, умеет принимать на вход текст и картинки и на выходе тоже выдавать текст и картинки. На генерации вроде как бьют Dalle-3, SDXL, SD3-Medium.

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/3239

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from us


Telegram gonzo-обзоры ML статей
FROM American