Telegram Group & Telegram Channel
Что на самом деле кроется за DeepSeek-хайпом (1/2)

Медийный эффект, произведённый анонсами DeepSeek, заслуживает отдельного разговора. Который день приходится подряд читать одно и то же. Хотя подобные волны «экспертных» обсуждений случаются регулярно, и к 2025 году они уже не должны вызывать удивления. Они и не удивляют, но, признаться, изрядно утомляют.

Кстати, о 2025-м. Трудно удержаться и не вспомнить о бурлениях вокруг микроядерной ОС компании Huawei [2]. Тогда, в 2019 году, «эксперты» предрекали революцию на рынке операционных систем и смену глобального лидера. Было обещано, что ядро будет открыто, а возможности системы заявлялись просто фантастические. Нам потребовалось изучить некоторое количество публикаций, собрать данные из различных источников, включая LinkedIn, GitHub и т.д., чтобы прийти к однозначному выводу: никакой полнофункциональной микроядерной ОС ни к 2021, ни даже к 2025 году в смартфонах Huawei не появится, как бы громко «эксперты» не хоронили ядро Android.

Но это было небольшое отступление. Вернёмся в наш 2025 год. DeepSeek методично, по нарастающей, выкладывает в открытый доступ модели, демонстрирующие весьма неплохие характеристики. И вот, 20 января выходит модель DeepSeek R1, позиционируемая как конкурент OpenAI o1. Модель доступна как на серверах самой DeepSeek, так и в виде опенсорсного продукта под MIT-лицензией. Цены на обработку запросов при этом были установлены приблизительно в 27 раз ниже, чем у OpenAI.

Релиз сопровождается как официальными, так и неофициальными публикациями, из которых следует, что с экономической точки зрения продукт DeepSeek на порядок превосходит конкурентов. Это касается его эксплуатации, и, что особенно подчёркивается, стоимости создания модели. Тиражируется заявление, что затраты на обучение составили всего пять с половиной миллионов долларов.

Информация стремительно распространяется в СМИ, в детали, как обычно никто не вникает. «Эксперты», в зависимости от своей принадлежности к тому или иному лагерю, начинают тиражировать привычные рассуждения. В результате, медийная волна становится одной из причин триллионной коррекции акций американского хайтека. Что, в свою очередь только усиливает бурления, количество безумных прогнозов растёт, равно как и такого же качества аналитики.

Но что происходит на самом деле? Мы видим очень талантливую маркетинговую кампанию, которая, в первую очередь, направлена на усиление переговорных позиций китайских властей с США относительно технологических санкций, а во вторую призвана поддержать выход китайских AI-продуктов на глобальные рынки.

Что же представляет собой модель R1 и действительно ли её создание было столь экономичным?

Если не углубляться в технические детали, то R1 — это действительно весьма эффективная модель, способная к рассуждениям и использующая ряд оптимизаций, повышающих её производительность. В ряде задач она демонстрирует результаты на уровне с лидерами рынка. Однако, это не всегда и не во всех тестах, поэтому говорить о её превосходстве нет оснований. Иными словами, R1 — это хороший продукт, с набором интересных оптимизаций, которые обеспечивают ему как преимущества, так и недостатки.

Разумеется, создание модели R1 обошлось значительно дороже, чем фигурирующие повсеместно 5,5 миллиона долларов. Начнём с того, что эти данные взяты из документа, сопровождавшего релиз предыдущей модели DeepSeek V3, а вовсе не R1.

Согласно этому документу, 5,576 миллиона долларов могла стоить лишь завершающая фаза обучения модели V3 при условии, что она проводилась на урезанных ускорителях H800, аренду которых авторы оценили в 2 доллара в час. Однако даже к этим данным есть вопросы: достижение заявленных в статье показателей на H800 представляется крайне сложным, а каких-либо деталей не сообщается. Оно и понятно, так как слухи говорят о том, что в реальности DeepSeek располагает от 10 до 50 тысячами ускорителей Nvidia Hopper. Причем их, возможно, у нее быть не должно из-за санкционных ограничений: и запрещенный санкциями H100 и урезанный H800, относятся к семейству Hopper.

(продолжение)



group-telegram.com/contentreview/9963
Create:
Last Update:

Что на самом деле кроется за DeepSeek-хайпом (1/2)

Медийный эффект, произведённый анонсами DeepSeek, заслуживает отдельного разговора. Который день приходится подряд читать одно и то же. Хотя подобные волны «экспертных» обсуждений случаются регулярно, и к 2025 году они уже не должны вызывать удивления. Они и не удивляют, но, признаться, изрядно утомляют.

Кстати, о 2025-м. Трудно удержаться и не вспомнить о бурлениях вокруг микроядерной ОС компании Huawei [2]. Тогда, в 2019 году, «эксперты» предрекали революцию на рынке операционных систем и смену глобального лидера. Было обещано, что ядро будет открыто, а возможности системы заявлялись просто фантастические. Нам потребовалось изучить некоторое количество публикаций, собрать данные из различных источников, включая LinkedIn, GitHub и т.д., чтобы прийти к однозначному выводу: никакой полнофункциональной микроядерной ОС ни к 2021, ни даже к 2025 году в смартфонах Huawei не появится, как бы громко «эксперты» не хоронили ядро Android.

Но это было небольшое отступление. Вернёмся в наш 2025 год. DeepSeek методично, по нарастающей, выкладывает в открытый доступ модели, демонстрирующие весьма неплохие характеристики. И вот, 20 января выходит модель DeepSeek R1, позиционируемая как конкурент OpenAI o1. Модель доступна как на серверах самой DeepSeek, так и в виде опенсорсного продукта под MIT-лицензией. Цены на обработку запросов при этом были установлены приблизительно в 27 раз ниже, чем у OpenAI.

Релиз сопровождается как официальными, так и неофициальными публикациями, из которых следует, что с экономической точки зрения продукт DeepSeek на порядок превосходит конкурентов. Это касается его эксплуатации, и, что особенно подчёркивается, стоимости создания модели. Тиражируется заявление, что затраты на обучение составили всего пять с половиной миллионов долларов.

Информация стремительно распространяется в СМИ, в детали, как обычно никто не вникает. «Эксперты», в зависимости от своей принадлежности к тому или иному лагерю, начинают тиражировать привычные рассуждения. В результате, медийная волна становится одной из причин триллионной коррекции акций американского хайтека. Что, в свою очередь только усиливает бурления, количество безумных прогнозов растёт, равно как и такого же качества аналитики.

Но что происходит на самом деле? Мы видим очень талантливую маркетинговую кампанию, которая, в первую очередь, направлена на усиление переговорных позиций китайских властей с США относительно технологических санкций, а во вторую призвана поддержать выход китайских AI-продуктов на глобальные рынки.

Что же представляет собой модель R1 и действительно ли её создание было столь экономичным?

Если не углубляться в технические детали, то R1 — это действительно весьма эффективная модель, способная к рассуждениям и использующая ряд оптимизаций, повышающих её производительность. В ряде задач она демонстрирует результаты на уровне с лидерами рынка. Однако, это не всегда и не во всех тестах, поэтому говорить о её превосходстве нет оснований. Иными словами, R1 — это хороший продукт, с набором интересных оптимизаций, которые обеспечивают ему как преимущества, так и недостатки.

Разумеется, создание модели R1 обошлось значительно дороже, чем фигурирующие повсеместно 5,5 миллиона долларов. Начнём с того, что эти данные взяты из документа, сопровождавшего релиз предыдущей модели DeepSeek V3, а вовсе не R1.

Согласно этому документу, 5,576 миллиона долларов могла стоить лишь завершающая фаза обучения модели V3 при условии, что она проводилась на урезанных ускорителях H800, аренду которых авторы оценили в 2 доллара в час. Однако даже к этим данным есть вопросы: достижение заявленных в статье показателей на H800 представляется крайне сложным, а каких-либо деталей не сообщается. Оно и понятно, так как слухи говорят о том, что в реальности DeepSeek располагает от 10 до 50 тысячами ускорителей Nvidia Hopper. Причем их, возможно, у нее быть не должно из-за санкционных ограничений: и запрещенный санкциями H100 и урезанный H800, относятся к семейству Hopper.

(продолжение)

BY Content Review


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/contentreview/9963

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For tech stocks, “the main thing is yields,” Essaye said. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from us


Telegram Content Review
FROM American