Telegram Group & Telegram Channel
Что на самом деле кроется за DeepSeek-хайпом (1/2)

Медийный эффект, произведённый анонсами DeepSeek, заслуживает отдельного разговора. Который день приходится подряд читать одно и то же. Хотя подобные волны «экспертных» обсуждений случаются регулярно, и к 2025 году они уже не должны вызывать удивления. Они и не удивляют, но, признаться, изрядно утомляют.

Кстати, о 2025-м. Трудно удержаться и не вспомнить о бурлениях вокруг микроядерной ОС компании Huawei [2]. Тогда, в 2019 году, «эксперты» предрекали революцию на рынке операционных систем и смену глобального лидера. Было обещано, что ядро будет открыто, а возможности системы заявлялись просто фантастические. Нам потребовалось изучить некоторое количество публикаций, собрать данные из различных источников, включая LinkedIn, GitHub и т.д., чтобы прийти к однозначному выводу: никакой полнофункциональной микроядерной ОС ни к 2021, ни даже к 2025 году в смартфонах Huawei не появится, как бы громко «эксперты» не хоронили ядро Android.

Но это было небольшое отступление. Вернёмся в наш 2025 год. DeepSeek методично, по нарастающей, выкладывает в открытый доступ модели, демонстрирующие весьма неплохие характеристики. И вот, 20 января выходит модель DeepSeek R1, позиционируемая как конкурент OpenAI o1. Модель доступна как на серверах самой DeepSeek, так и в виде опенсорсного продукта под MIT-лицензией. Цены на обработку запросов при этом были установлены приблизительно в 27 раз ниже, чем у OpenAI.

Релиз сопровождается как официальными, так и неофициальными публикациями, из которых следует, что с экономической точки зрения продукт DeepSeek на порядок превосходит конкурентов. Это касается его эксплуатации, и, что особенно подчёркивается, стоимости создания модели. Тиражируется заявление, что затраты на обучение составили всего пять с половиной миллионов долларов.

Информация стремительно распространяется в СМИ, в детали, как обычно никто не вникает. «Эксперты», в зависимости от своей принадлежности к тому или иному лагерю, начинают тиражировать привычные рассуждения. В результате, медийная волна становится одной из причин триллионной коррекции акций американского хайтека. Что, в свою очередь только усиливает бурления, количество безумных прогнозов растёт, равно как и такого же качества аналитики.

Но что происходит на самом деле? Мы видим очень талантливую маркетинговую кампанию, которая, в первую очередь, направлена на усиление переговорных позиций китайских властей с США относительно технологических санкций, а во вторую призвана поддержать выход китайских AI-продуктов на глобальные рынки.

Что же представляет собой модель R1 и действительно ли её создание было столь экономичным?

Если не углубляться в технические детали, то R1 — это действительно весьма эффективная модель, способная к рассуждениям и использующая ряд оптимизаций, повышающих её производительность. В ряде задач она демонстрирует результаты на уровне с лидерами рынка. Однако, это не всегда и не во всех тестах, поэтому говорить о её превосходстве нет оснований. Иными словами, R1 — это хороший продукт, с набором интересных оптимизаций, которые обеспечивают ему как преимущества, так и недостатки.

Разумеется, создание модели R1 обошлось значительно дороже, чем фигурирующие повсеместно 5,5 миллиона долларов. Начнём с того, что эти данные взяты из документа, сопровождавшего релиз предыдущей модели DeepSeek V3, а вовсе не R1.

Согласно этому документу, 5,576 миллиона долларов могла стоить лишь завершающая фаза обучения модели V3 при условии, что она проводилась на урезанных ускорителях H800, аренду которых авторы оценили в 2 доллара в час. Однако даже к этим данным есть вопросы: достижение заявленных в статье показателей на H800 представляется крайне сложным, а каких-либо деталей не сообщается. Оно и понятно, так как слухи говорят о том, что в реальности DeepSeek располагает от 10 до 50 тысячами ускорителей Nvidia Hopper. Причем их, возможно, у нее быть не должно из-за санкционных ограничений: и запрещенный санкциями H100 и урезанный H800, относятся к семейству Hopper.

(продолжение)



group-telegram.com/contentreview/9963
Create:
Last Update:

Что на самом деле кроется за DeepSeek-хайпом (1/2)

Медийный эффект, произведённый анонсами DeepSeek, заслуживает отдельного разговора. Который день приходится подряд читать одно и то же. Хотя подобные волны «экспертных» обсуждений случаются регулярно, и к 2025 году они уже не должны вызывать удивления. Они и не удивляют, но, признаться, изрядно утомляют.

Кстати, о 2025-м. Трудно удержаться и не вспомнить о бурлениях вокруг микроядерной ОС компании Huawei [2]. Тогда, в 2019 году, «эксперты» предрекали революцию на рынке операционных систем и смену глобального лидера. Было обещано, что ядро будет открыто, а возможности системы заявлялись просто фантастические. Нам потребовалось изучить некоторое количество публикаций, собрать данные из различных источников, включая LinkedIn, GitHub и т.д., чтобы прийти к однозначному выводу: никакой полнофункциональной микроядерной ОС ни к 2021, ни даже к 2025 году в смартфонах Huawei не появится, как бы громко «эксперты» не хоронили ядро Android.

Но это было небольшое отступление. Вернёмся в наш 2025 год. DeepSeek методично, по нарастающей, выкладывает в открытый доступ модели, демонстрирующие весьма неплохие характеристики. И вот, 20 января выходит модель DeepSeek R1, позиционируемая как конкурент OpenAI o1. Модель доступна как на серверах самой DeepSeek, так и в виде опенсорсного продукта под MIT-лицензией. Цены на обработку запросов при этом были установлены приблизительно в 27 раз ниже, чем у OpenAI.

Релиз сопровождается как официальными, так и неофициальными публикациями, из которых следует, что с экономической точки зрения продукт DeepSeek на порядок превосходит конкурентов. Это касается его эксплуатации, и, что особенно подчёркивается, стоимости создания модели. Тиражируется заявление, что затраты на обучение составили всего пять с половиной миллионов долларов.

Информация стремительно распространяется в СМИ, в детали, как обычно никто не вникает. «Эксперты», в зависимости от своей принадлежности к тому или иному лагерю, начинают тиражировать привычные рассуждения. В результате, медийная волна становится одной из причин триллионной коррекции акций американского хайтека. Что, в свою очередь только усиливает бурления, количество безумных прогнозов растёт, равно как и такого же качества аналитики.

Но что происходит на самом деле? Мы видим очень талантливую маркетинговую кампанию, которая, в первую очередь, направлена на усиление переговорных позиций китайских властей с США относительно технологических санкций, а во вторую призвана поддержать выход китайских AI-продуктов на глобальные рынки.

Что же представляет собой модель R1 и действительно ли её создание было столь экономичным?

Если не углубляться в технические детали, то R1 — это действительно весьма эффективная модель, способная к рассуждениям и использующая ряд оптимизаций, повышающих её производительность. В ряде задач она демонстрирует результаты на уровне с лидерами рынка. Однако, это не всегда и не во всех тестах, поэтому говорить о её превосходстве нет оснований. Иными словами, R1 — это хороший продукт, с набором интересных оптимизаций, которые обеспечивают ему как преимущества, так и недостатки.

Разумеется, создание модели R1 обошлось значительно дороже, чем фигурирующие повсеместно 5,5 миллиона долларов. Начнём с того, что эти данные взяты из документа, сопровождавшего релиз предыдущей модели DeepSeek V3, а вовсе не R1.

Согласно этому документу, 5,576 миллиона долларов могла стоить лишь завершающая фаза обучения модели V3 при условии, что она проводилась на урезанных ускорителях H800, аренду которых авторы оценили в 2 доллара в час. Однако даже к этим данным есть вопросы: достижение заявленных в статье показателей на H800 представляется крайне сложным, а каких-либо деталей не сообщается. Оно и понятно, так как слухи говорят о том, что в реальности DeepSeek располагает от 10 до 50 тысячами ускорителей Nvidia Hopper. Причем их, возможно, у нее быть не должно из-за санкционных ограничений: и запрещенный санкциями H100 и урезанный H800, относятся к семейству Hopper.

(продолжение)

BY Content Review


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/contentreview/9963

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Despite Telegram's origins, its approach to users' security has privacy advocates worried. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from ua


Telegram Content Review
FROM American