Telegram Group & Telegram Channel
DeepSeek — это уже революция или ещё нет?

Читаю восторженные новости про новую китайскую модель. И, кажется, новость чуть перегрета.

0. Стоимость обучения новой модели $5.6 миллионов. Во-первых, эта сумма со слов создателей модели. Ложь — это неотъемлемая часть бизнеса. Никаких независимых подтверждений этой сумме нет. Предприниматели пиздят, не забывайте об этом. Во-вторых, при обучении была значительно сокращена часть, где люди дают фидбек модели. В-третьих, она обучалась на датасетах, сгенерированных GPT-4. То есть китайские инженеры стояли на плечах гигантов. Экономия на обучении DeepSeek частично обусловлена затратами, ранее понесёнными другими участниками рынка. UPD: Игорь Котенков говорит, что цена — реальная.

1. Обрушение стоимости NVIDIA на 17% выглядит странновато. Есть такой парадокс Джевонса: технологический прогресс, который увеличивает эффективность использования какого-либо ресурса, увеличивает (а не уменьшает) объём его потребления. Когда двигатель, потребляющий уголь, становится эффективнее, его начинают шире использовать, а значит, нужно больше угля.

GPU, которые производит NVIDIA, нужны не только, чтобы обучать модели, но и чтобы делать инференс. Инференс — это процесс применения обученной модели к входным данным. А самая большая модель DeepSeek запускается сразу на нескольких GPU.

Логика такая: модель дешевле -> её применение становится более широким -> нужно больше GPU.

2. Реальный прорыв — это цены на API DeepSeek. Они ниже, чем у OpenAI в ~20 раз. Многие бизнесы начали мигрировать с OpenAI на DeepSeek.

3. Бесплатное приложение, аналог ChatGPT от DeepSeek, вышло на первое место в сторах. Мне кажется, бесплатность приложения временна. Скорее всего, когда модель выпускали, не планировали, что будет такой виральный эффект. Если подписку всё же не прикрутят, то не забывайте, когда продукт бесплатный, то продукт — это вы.

4. А так ли модель хороша? Вот цитата Григория Бакунова:

«В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.»

Самый толковый разбор про DeepSeek в видеоформате на русском языке от Сергея Петренко здесь.



group-telegram.com/digital_ninjaa/214
Create:
Last Update:

DeepSeek — это уже революция или ещё нет?

Читаю восторженные новости про новую китайскую модель. И, кажется, новость чуть перегрета.

0. Стоимость обучения новой модели $5.6 миллионов. Во-первых, эта сумма со слов создателей модели. Ложь — это неотъемлемая часть бизнеса. Никаких независимых подтверждений этой сумме нет. Предприниматели пиздят, не забывайте об этом. Во-вторых, при обучении была значительно сокращена часть, где люди дают фидбек модели. В-третьих, она обучалась на датасетах, сгенерированных GPT-4. То есть китайские инженеры стояли на плечах гигантов. Экономия на обучении DeepSeek частично обусловлена затратами, ранее понесёнными другими участниками рынка. UPD: Игорь Котенков говорит, что цена — реальная.

1. Обрушение стоимости NVIDIA на 17% выглядит странновато. Есть такой парадокс Джевонса: технологический прогресс, который увеличивает эффективность использования какого-либо ресурса, увеличивает (а не уменьшает) объём его потребления. Когда двигатель, потребляющий уголь, становится эффективнее, его начинают шире использовать, а значит, нужно больше угля.

GPU, которые производит NVIDIA, нужны не только, чтобы обучать модели, но и чтобы делать инференс. Инференс — это процесс применения обученной модели к входным данным. А самая большая модель DeepSeek запускается сразу на нескольких GPU.

Логика такая: модель дешевле -> её применение становится более широким -> нужно больше GPU.

2. Реальный прорыв — это цены на API DeepSeek. Они ниже, чем у OpenAI в ~20 раз. Многие бизнесы начали мигрировать с OpenAI на DeepSeek.

3. Бесплатное приложение, аналог ChatGPT от DeepSeek, вышло на первое место в сторах. Мне кажется, бесплатность приложения временна. Скорее всего, когда модель выпускали, не планировали, что будет такой виральный эффект. Если подписку всё же не прикрутят, то не забывайте, когда продукт бесплатный, то продукт — это вы.

4. А так ли модель хороша? Вот цитата Григория Бакунова:

«В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.»

Самый толковый разбор про DeepSeek в видеоформате на русском языке от Сергея Петренко здесь.

BY Digital Ниндзя


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/digital_ninjaa/214

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK.
from no


Telegram Digital Ниндзя
FROM American