group-telegram.com/contentreview/9963
Last Update:
Что на самом деле кроется за DeepSeek-хайпом (1/2)
Медийный эффект, произведённый анонсами DeepSeek, заслуживает отдельного разговора. Который день приходится подряд читать одно и то же. Хотя подобные волны «экспертных» обсуждений случаются регулярно, и к 2025 году они уже не должны вызывать удивления. Они и не удивляют, но, признаться, изрядно утомляют.
Кстати, о 2025-м. Трудно удержаться и не вспомнить о бурлениях вокруг микроядерной ОС компании Huawei [2]. Тогда, в 2019 году, «эксперты» предрекали революцию на рынке операционных систем и смену глобального лидера. Было обещано, что ядро будет открыто, а возможности системы заявлялись просто фантастические. Нам потребовалось изучить некоторое количество публикаций, собрать данные из различных источников, включая LinkedIn, GitHub и т.д., чтобы прийти к однозначному выводу: никакой полнофункциональной микроядерной ОС ни к 2021, ни даже к 2025 году в смартфонах Huawei не появится, как бы громко «эксперты» не хоронили ядро Android.
Но это было небольшое отступление. Вернёмся в наш 2025 год. DeepSeek методично, по нарастающей, выкладывает в открытый доступ модели, демонстрирующие весьма неплохие характеристики. И вот, 20 января выходит модель DeepSeek R1, позиционируемая как конкурент OpenAI o1. Модель доступна как на серверах самой DeepSeek, так и в виде опенсорсного продукта под MIT-лицензией. Цены на обработку запросов при этом были установлены приблизительно в 27 раз ниже, чем у OpenAI.
Релиз сопровождается как официальными, так и неофициальными публикациями, из которых следует, что с экономической точки зрения продукт DeepSeek на порядок превосходит конкурентов. Это касается его эксплуатации, и, что особенно подчёркивается, стоимости создания модели. Тиражируется заявление, что затраты на обучение составили всего пять с половиной миллионов долларов.
Информация стремительно распространяется в СМИ, в детали, как обычно никто не вникает. «Эксперты», в зависимости от своей принадлежности к тому или иному лагерю, начинают тиражировать привычные рассуждения. В результате, медийная волна становится одной из причин триллионной коррекции акций американского хайтека. Что, в свою очередь только усиливает бурления, количество безумных прогнозов растёт, равно как и такого же качества аналитики.
Но что происходит на самом деле? Мы видим очень талантливую маркетинговую кампанию, которая, в первую очередь, направлена на усиление переговорных позиций китайских властей с США относительно технологических санкций, а во вторую призвана поддержать выход китайских AI-продуктов на глобальные рынки.
Что же представляет собой модель R1 и действительно ли её создание было столь экономичным?
Если не углубляться в технические детали, то R1 — это действительно весьма эффективная модель, способная к рассуждениям и использующая ряд оптимизаций, повышающих её производительность. В ряде задач она демонстрирует результаты на уровне с лидерами рынка. Однако, это не всегда и не во всех тестах, поэтому говорить о её превосходстве нет оснований. Иными словами, R1 — это хороший продукт, с набором интересных оптимизаций, которые обеспечивают ему как преимущества, так и недостатки.
Разумеется, создание модели R1 обошлось значительно дороже, чем фигурирующие повсеместно 5,5 миллиона долларов. Начнём с того, что эти данные взяты из документа, сопровождавшего релиз предыдущей модели DeepSeek V3, а вовсе не R1.
Согласно этому документу, 5,576 миллиона долларов могла стоить лишь завершающая фаза обучения модели V3 при условии, что она проводилась на урезанных ускорителях H800, аренду которых авторы оценили в 2 доллара в час. Однако даже к этим данным есть вопросы: достижение заявленных в статье показателей на H800 представляется крайне сложным, а каких-либо деталей не сообщается. Оно и понятно, так как слухи говорят о том, что в реальности DeepSeek располагает от 10 до 50 тысячами ускорителей Nvidia Hopper. Причем их, возможно, у нее быть не должно из-за санкционных ограничений: и запрещенный санкциями H100 и урезанный H800, относятся к семейству Hopper.
(продолжение)
BY Content Review
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/contentreview/9963