Telegram Group & Telegram Channel
DeepSeek — это уже революция или ещё нет?

Читаю восторженные новости про новую китайскую модель. И, кажется, новость чуть перегрета.

0. Стоимость обучения новой модели $5.6 миллионов. Во-первых, эта сумма со слов создателей модели. Ложь — это неотъемлемая часть бизнеса. Никаких независимых подтверждений этой сумме нет. Предприниматели пиздят, не забывайте об этом. Во-вторых, при обучении была значительно сокращена часть, где люди дают фидбек модели. В-третьих, она обучалась на датасетах, сгенерированных GPT-4. То есть китайские инженеры стояли на плечах гигантов. Экономия на обучении DeepSeek частично обусловлена затратами, ранее понесёнными другими участниками рынка. UPD: Игорь Котенков говорит, что цена — реальная.

1. Обрушение стоимости NVIDIA на 17% выглядит странновато. Есть такой парадокс Джевонса: технологический прогресс, который увеличивает эффективность использования какого-либо ресурса, увеличивает (а не уменьшает) объём его потребления. Когда двигатель, потребляющий уголь, становится эффективнее, его начинают шире использовать, а значит, нужно больше угля.

GPU, которые производит NVIDIA, нужны не только, чтобы обучать модели, но и чтобы делать инференс. Инференс — это процесс применения обученной модели к входным данным. А самая большая модель DeepSeek запускается сразу на нескольких GPU.

Логика такая: модель дешевле -> её применение становится более широким -> нужно больше GPU.

2. Реальный прорыв — это цены на API DeepSeek. Они ниже, чем у OpenAI в ~20 раз. Многие бизнесы начали мигрировать с OpenAI на DeepSeek.

3. Бесплатное приложение, аналог ChatGPT от DeepSeek, вышло на первое место в сторах. Мне кажется, бесплатность приложения временна. Скорее всего, когда модель выпускали, не планировали, что будет такой виральный эффект. Если подписку всё же не прикрутят, то не забывайте, когда продукт бесплатный, то продукт — это вы.

4. А так ли модель хороша? Вот цитата Григория Бакунова:

«В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.»

Самый толковый разбор про DeepSeek в видеоформате на русском языке от Сергея Петренко здесь.



group-telegram.com/digital_ninjaa/214
Create:
Last Update:

DeepSeek — это уже революция или ещё нет?

Читаю восторженные новости про новую китайскую модель. И, кажется, новость чуть перегрета.

0. Стоимость обучения новой модели $5.6 миллионов. Во-первых, эта сумма со слов создателей модели. Ложь — это неотъемлемая часть бизнеса. Никаких независимых подтверждений этой сумме нет. Предприниматели пиздят, не забывайте об этом. Во-вторых, при обучении была значительно сокращена часть, где люди дают фидбек модели. В-третьих, она обучалась на датасетах, сгенерированных GPT-4. То есть китайские инженеры стояли на плечах гигантов. Экономия на обучении DeepSeek частично обусловлена затратами, ранее понесёнными другими участниками рынка. UPD: Игорь Котенков говорит, что цена — реальная.

1. Обрушение стоимости NVIDIA на 17% выглядит странновато. Есть такой парадокс Джевонса: технологический прогресс, который увеличивает эффективность использования какого-либо ресурса, увеличивает (а не уменьшает) объём его потребления. Когда двигатель, потребляющий уголь, становится эффективнее, его начинают шире использовать, а значит, нужно больше угля.

GPU, которые производит NVIDIA, нужны не только, чтобы обучать модели, но и чтобы делать инференс. Инференс — это процесс применения обученной модели к входным данным. А самая большая модель DeepSeek запускается сразу на нескольких GPU.

Логика такая: модель дешевле -> её применение становится более широким -> нужно больше GPU.

2. Реальный прорыв — это цены на API DeepSeek. Они ниже, чем у OpenAI в ~20 раз. Многие бизнесы начали мигрировать с OpenAI на DeepSeek.

3. Бесплатное приложение, аналог ChatGPT от DeepSeek, вышло на первое место в сторах. Мне кажется, бесплатность приложения временна. Скорее всего, когда модель выпускали, не планировали, что будет такой виральный эффект. Если подписку всё же не прикрутят, то не забывайте, когда продукт бесплатный, то продукт — это вы.

4. А так ли модель хороша? Вот цитата Григория Бакунова:

«В Wired обзор того, как работать с DeepSeek. Для ленивых — оно работает и даже бесплатно, но галлюцинации постоянные, и по набору важных пользовательских фич (таких как канвас или память), конечно, уступает ChatGPT. Вообще, откуда такая истерика — непонятно, рассказы про то, что deepseek превосходит топовые модели — это же чистый маркетинг. На деле это правда крутая для опенсорса модель, но все реальные тесты пока показывают — она хорошая, но совсем не уровня o1 или Sonet.»

Самый толковый разбор про DeepSeek в видеоформате на русском языке от Сергея Петренко здесь.

BY Digital Ниндзя


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/digital_ninjaa/214

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from vn


Telegram Digital Ниндзя
FROM American