Telegram Group & Telegram Channel
Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.



group-telegram.com/gonzo_ML/3183
Create:
Last Update:

Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/3183

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from ua


Telegram gonzo-обзоры ML статей
FROM American