Notice: file_put_contents(): Write of 5427 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13619 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
gonzo-обзоры ML статей | Telegram Webview: gonzo_ML/3183 -
Telegram Group & Telegram Channel
Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.



group-telegram.com/gonzo_ML/3183
Create:
Last Update:

Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/3183

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from in


Telegram gonzo-обзоры ML статей
FROM American