Telegram Group Search
И чуток сгенерированного видео вам про будущее

Fredrik Jonsson
⚭ Cloud Station ⚭
KN#33 travel center

https://www.facebook.com/share/v/1GKeeqJyQr/
Кейноут CEO NVIDIA Дженсена Хуанга (Jensen Huang) хорошо посмотреть (https://www.youtube.com/live/K4qQtPpSn-k?si=EShfhSBkbBSRJRWL&t=881). Во-первых, это красиво. Во-вторых, я думаю, эта компания будет определять нашу жизнь в большей мере, чем её сосед в TOP-2 по капитализации, Apple. Не полагайтесь целиком на новостные выжимки (и на мою тоже), составьте впечатление сами. Не так много в году настолько глобально значимых кейноутов -- ну может Гугл ещё, OpenAI там, про Apple не уверен, но наверное тоже.

Я кстати не понял, почему на канале CNBC это видео продолжается 12 часов (https://www.youtube.com/watch?v=fuq0Ncdsknk), кажется они зациклили трансляцию и записали её несколько раз. Я вначале испугался, что это будет шоу одного актёра на 12 часов. Но обошлось, всего чуть меньше двух. Но всё равно, Дженсен бодро прыгает всё это время на сцене, в апгрейженной крокодиловой кожаной куртке.

Крутая founder-lend company, что тут скажешь. Другим не founder-led компаниям (не буду показывать пальцем) такое не светит. Кто вообще знает, кто их CEO? Да никто как правило. Или если даже знаете, то что самое важное про них вы можете сказать? Что кто-то дальний родственник Хуанга? Ну вот и ответ про капитализацию и рыночные перспективы.

Хуанг -- знатный фокусник (https://www.youtube.com/live/K4qQtPpSn-k?si=FNUImWw_JsQYO9lA&t=6420), почти как Бастер Китон сто лет назад (https://www.youtube.com/watch?v=TA8rrAqip8E). Кстати, если Китона не знаете, очень рекомендую, у меня дети от Чаплина и Китона фанатеют.

RTX Blackwell

История появления универсальных и программируемых GPU, а затем и CUDA в чём-то сродни истории появления первого программируемого микропроцессора Intel 4004 (https://www.intel.com/content/www/us/en/history/museum-story-of-intel-4004.html). Кому-то сначала надо было додуматься, что универсальность важна. И массово рынок пришёл к пониманию этого нововведения только через годы. И вот теперь мы там где мы есть, спасибо играм и калькуляторам.

Игры тоже апгрейдятся, рендеринг теперь иной. Реально рендерится только небольшое число пикселей, остальное рассчитывается предобученными нейросетями прямо на чипе. Хуанг привёл пример, где рассчитывают рендером только 2 миллиона пикселей из 33, остальное генерится AI. Эта история с neural rendering сравнима с MLSys (https://www.group-telegram.com/gonzo_ML.com/3126), когда эвристики заменяются на обучение, или ещё больше похоже на ситуацию с научными симуляциями, когда сложная и долгая вычислительная модель заменяется на быструю нейросетевую -- везде hard-coded софт заменяется на нейропредсказание (надо бы таки дописать разбор neural operators…).

Новый RTX Blackwell -- мощный чип, с огромной пропускной способностью памяти (1.8TB/s), с 4000 AI TOPS что в три раза больше предыдущего поколения Ada. Тут всегда вопрос, что конкретно понимается за этими AI TOPS, каждый раз разное. Я надеялся, что это не FP4, но подозреваю, что всё-таки они. Во-первых, так получается больше :) А во-вторых потому что дальше он их использует в других местах.

Игровые карты весьма внушительны:
* старшая 5090: 3400 AI TOPS $1999
* младшая 5070: 1000 AI TOPS $549

То есть за $550 получаем как бы петафлопс на столе. Для контекста, первый терафлопсный суперкомпьютер (в 1000 раз слабее) был ASCI Red из 1997-го года (https://top500.org/resources/top-systems/asci-red-sandia-national-laboratory/), а первым петафлопсным был IBM Roadrunner в 2008 (https://www.ibm.com/history/petaflop-barrier). Но это конечно нечестно, в прошлом терафлопсы были зеленее. В TOP500 это FP64, а не какой-то там FP4. Но всё равно прикольно.
Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.
Специальные чипы вроде как становится дизайнить проще и дешевле (https://www.group-telegram.com/gonzo_ML.com/3147), может кто-нибудь создаст на ARM или Risc-V? И с дофига памяти.

Cerebras, кстати, мог бы выпустить Cerebras mini, например :)

World models и агенты

Увидел у Хуанга очень много мыслей, про которые думал и сам. Буквально недавно (https://www.group-telegram.com/gonzo_ML.com/3175) писал и про агентов, что это тот же самый test-time compute, и про важность world models. Приятно, на одной волне.

Скейлинг продолжается. Более того сейчас действуют сразу 3 scaling laws:
* pre-training scaling (as usual)
* post-training scaling (RLHF, RLAIF, …)
* test-time scaling (reasoning)

И Нвидии будет прекрасно и дальше жить в этом мире.

Про онбординг агентов и HR-истории для них мы тоже в Intento когда-то довольно много говорили, что всё это в конечном счёте приводит к гибридным командам. Сейчас мы как никогда близки к этому. Хуанг говорит, что IT-департаменты компаний станут HR-департаментами для агентов.

NVIDIA теперь пытается сделать AI libraries по аналогии с CUDA libraries. Это будет экосистема вокруг NIM, NeMo, AI Blueprints. Тема хорошая, но в доминирование Нвидии здесь я, честно говоря, верю меньше, потому что на архитектуру их чипов это уже никак не завязано, но с другой стороны NVIDIA настолько системный игрок, оперирующий на разных уровнях стека, что кроме них может никто лучше и не может системно подойти к вопросу. Посмотрим, сработает ли это, или отдельные компоненты и их интерфейсы и сами по себе (усилиями других) придут к хорошим архитектурным решениям. Я скорее верю во второе.

Анонсировали оптимизированные Ламы, семейство Llama Nemotron: Nano, Super, Ultra. Прикольно конечно Цукерберг (с ещё одной founder-led компанией) задизраптил всех. Самое интересное ещё впереди, посмотрим как экосистема сложится через год-два.

Прошёлся по Windows с желанием из Windows PC сделать AI PC на основе WSL2, второй версии Window Subsystem for Linux (система, интегрирующая Linux в винду). NVIDIA собирается ориентироваться на WSL2, так что AI PC появится отсюда. Так понимаю, это альтернативный путь тому, что предложил Microsoft со своими Copilot в винде.

Другая большая тема -- Physical AI и (сюрприз-сюрприз) world models. NVIDIA Cosmos -- это платформа для таких моделей, где среди World Foundation Models в наличии авторегрессионные и диффузионные модели, токенизаторы видео и пайплайны для обработки видео. Тоже планируется линейка Nano, Super, Ultra. Интересно, что модели Ultra позиционируются как модели-учители, для дистилляции например. Модель (не уверен какая именно) в Cosmos обучена на 20 миллионах часов видео.

Теперь есть Omniverse для рендера и Cosmos для нейро рендера. Интересно, здесь Цукерберг собирается дизраптить? Сначала они делали похожие штуки про Omniverse/Metaverse, теперь вот у одних есть LLM, а у других оптимизированная та же LLM + World Models -- чувствуется лёгкая асимметрия в такой конфигурации, пустота должна быть заполнена :)

Omniversе по сути physics-based и выступает как ground truth для Cosmos. Это прикольная конфигурация, мне она нравится. Хуанг сравнивает это с RAG для LLM. Отсюда ещё один заход на то, как могут выглядеть игровые движки ближайшего будущего (https://www.group-telegram.com/gonzo_ML.com/3176).

Платформа Cosmos выложена на гитхабе (https://github.com/NVIDIA/Cosmos) под Apache 2.0, а модели на Huggingface под Нвидиевской открытой лицензией (сильно в детали пока не вникал, но по крайней мере “Models are commercially usable. You are free to create and distribute Derivative Models. NVIDIA does not claim ownership to any outputs generated using the Models or Model Derivatives.”).

Хуанг много говорил про digital twins, роботов и автомобили, здесь тоже много анонсов, включая процессоры, Drive OS, Isaac GROOT. Нвидиа целится в роботов трёх типов: Agentic AI, Self-driving cars, humanoid robots.

Везде вообще упирает на токены, всюду токены. Ждём коммуналки с графой про оплату за токены. И токеноотведение.
2025/01/10 11:31:40
Back to Top
HTML Embed Code: