Telegram Group & Telegram Channel
DeepSeek — это уже революция или ещё нет?

Читаю восторженные новости про новую китайскую модель. И, кажется, новость чуть перегрета.

0. Стоимость обучения новой модели $5.6 миллионов. Во-первых, эта сумма со слов создателей модели. Ложь — это неотъемлемая часть бизнеса. Никаких независимых подтверждений этой сумме нет. Предприниматели пиздят, не забывайте об этом. Во-вторых, при обучении была значительно сокращена часть, где люди дают фидбек модели. В-третьих, она обучалась на датасетах, сгенерированных GPT-4. То есть китайские инженеры стояли на плечах гигантов. Экономия на обучении DeepSeek частично обусловлена затратами, ранее понесёнными другими участниками рынка. UPD: Игорь Котенков говорит, что цена — реальная.

1. Обрушение стоимости NVIDIA на 17% выглядит странновато. Есть такой парадокс Джевонса: технологический прогресс, который увеличивает эффективность использования какого-либо ресурса, увеличивает (а не уменьшает) объём его потребления. Когда двигатель, потребляющий уголь, становится эффективнее, его начинают шире использовать, а значит, нужно больше угля.

GPU, которые производит NVIDIA, нужны не только, чтобы обучать модели, но и чтобы делать инференс. Инференс — это процесс применения обученной модели к входным данным. А самая большая модель DeepSeek запускается сразу на нескольких GPU.

Логика такая: модель дешевле -> её применение становится более широким -> нужно больше GPU.

2. Реальный прорыв — это цены на API DeepSeek. Они ниже, чем у OpenAI в ~20 раз. Многие бизнесы начали мигрировать с OpenAI на DeepSeek.

3. Бесплатное приложение, аналог ChatGPT от DeepSeek, вышло на первое место в сторах. Мне кажется, бесплатность приложения временна. Скорее всего, когда модель выпускали, не планировали, что будет такой виральный эффект. Если подписку всё же не прикрутят, то не забывайте, когда продукт бесплатный, то продукт — это вы.

4. А так ли модель хороша? Вот цитата Григория Бакунова:

«В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.»

Самый толковый разбор про DeepSeek в видеоформате на русском языке от Сергея Петренко здесь.



group-telegram.com/digital_ninjaa/214
Create:
Last Update:

DeepSeek — это уже революция или ещё нет?

Читаю восторженные новости про новую китайскую модель. И, кажется, новость чуть перегрета.

0. Стоимость обучения новой модели $5.6 миллионов. Во-первых, эта сумма со слов создателей модели. Ложь — это неотъемлемая часть бизнеса. Никаких независимых подтверждений этой сумме нет. Предприниматели пиздят, не забывайте об этом. Во-вторых, при обучении была значительно сокращена часть, где люди дают фидбек модели. В-третьих, она обучалась на датасетах, сгенерированных GPT-4. То есть китайские инженеры стояли на плечах гигантов. Экономия на обучении DeepSeek частично обусловлена затратами, ранее понесёнными другими участниками рынка. UPD: Игорь Котенков говорит, что цена — реальная.

1. Обрушение стоимости NVIDIA на 17% выглядит странновато. Есть такой парадокс Джевонса: технологический прогресс, который увеличивает эффективность использования какого-либо ресурса, увеличивает (а не уменьшает) объём его потребления. Когда двигатель, потребляющий уголь, становится эффективнее, его начинают шире использовать, а значит, нужно больше угля.

GPU, которые производит NVIDIA, нужны не только, чтобы обучать модели, но и чтобы делать инференс. Инференс — это процесс применения обученной модели к входным данным. А самая большая модель DeepSeek запускается сразу на нескольких GPU.

Логика такая: модель дешевле -> её применение становится более широким -> нужно больше GPU.

2. Реальный прорыв — это цены на API DeepSeek. Они ниже, чем у OpenAI в ~20 раз. Многие бизнесы начали мигрировать с OpenAI на DeepSeek.

3. Бесплатное приложение, аналог ChatGPT от DeepSeek, вышло на первое место в сторах. Мне кажется, бесплатность приложения временна. Скорее всего, когда модель выпускали, не планировали, что будет такой виральный эффект. Если подписку всё же не прикрутят, то не забывайте, когда продукт бесплатный, то продукт — это вы.

4. А так ли модель хороша? Вот цитата Григория Бакунова:

«В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.»

Самый толковый разбор про DeepSeek в видеоформате на русском языке от Сергея Петренко здесь.

BY Digital Ниндзя


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/digital_ninjaa/214

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe.
from tw


Telegram Digital Ниндзя
FROM American