Notice: file_put_contents(): Write of 5427 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13619 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
gonzo-обзоры ML статей | Telegram Webview: gonzo_ML/3183 -
Telegram Group & Telegram Channel
Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.



group-telegram.com/gonzo_ML/3183
Create:
Last Update:

Когда я в 2018-м делал свой обзор железа для глубокого обучения (https://moocaholic.medium.com/hardware-for-deep-learning-part-3-gpu-8906c1644664), стандартом в этой области был FP32, по ним топовые карты были до 20 TFLOPS. Тогда уже появлялся FP16 и тензорные ядра, с ними выходило под 130 TFLOPS. А теперь вот 3 петафлопса в одной топовой настольной карте. Но теперь на одной карте никто и не обучает… Для всех реальных обучений нужны гигантские кластера. И кроме компьюта надо ещё много памяти, в игровые карты её почти не ставят. Сейчас рекорд, кажется, это 32 гига в 5090? Были вроде ещё какие-то Quadro RTX 8000, где даже до 48 было, но то экзотика и уже неигровое.

С игровыми видюхами тут много не сделаешь. Ну сделаешь, можно конечно собрать дешёвый аналог DGX, но всё это субоптимально. NVIDIA долго старалась разделить эти два рынка, и вот сейчас, кажется, они естественным образом к этому разделению пришли.

AMD конечно интересны со своей серией MI, в топовой модели MI325x сейчас 256 Gb (https://www.amd.com/en/products/accelerators/instinct/mi300/mi325x.html), но это тоже не игровое.

Возвращаясь к Blackwell, у него заявлено x4 performance per watt и x3 per dollar относительно предыдущей серии, что для датацентров большая тема. С энергией проблемы, да и по деньгам обучение растёт, если можно по этим параметрам сэкономить в 3-4 раза, то это серьёзно.

Анонсировали NVLink72, Хуанг постоял на сцене с щитом в виде вафли-гигантского чипа, по аналогии как у Cerebras, но я так понял, что это метафора, как выглядел бы такой чип, если текущую систему на основе NVLink72 с 72 GPU разместить на одном чипе.

Project Digits

Очень интересный анонс Project Digits. Это DGX в миниатюре со всем софтовым AI стеком, на новом чипе GB10 (https://www.nvidia.com/en-gb/project-digits/) c 1 PFLOP FP4, 20 ARM ядрами, 128 Gb DDR5X памяти и 4 Tb SSD. Интересно, сколько мощности потребляет и как быстро её приспособят для майнинга. И всё это за $3000. Я хочу такую штуку!

Игровые карты уже давно стали субоптимальным решением для практических моделей, на топовой карте нового поколения всего 32 гига памяти, это годится только для не очень больших моделей, куча LLM среднего размера туда уже не влезут без квантизаций и прочих ухищрений по сохранению памяти. Вот 128 это уже неплохо. Можно соединить пару вместе и тогда можно инфёрить даже Llama 405B, так понимаю с квантизацией.

А ещё это классно, потому что мы все массово переехали на ноутбуки и облака, иметь системный блок с GPU-шкой может быть просто неудобно. А тут вон маленький переносной сетевой девайс. Короче, хочу!

Это вообще очень интересная тема, я уверен, что здесь просвечивают контуры будущего. Иметь локальный домашний девайс для инференса становится всё более осмысленно, особенно с приближающимся агентским настоящим.

Как были NAS (Network-attached Storage) должны быть и NAG (Network-attached GPU). Локальные инференсы лам и прочего будут происходить там, в домашнем центре вычислений для ИИ. Smart home, распознавание людей за дверью, домашние агенты, … -- многое из этого осмысленно было бы делать прямо на месте. Но было особо негде, так чтобы это было удобно.

ASI заведётся однажды в пыльном углу. Или так появится Джой из Бегущего по лезвию.

Тут явно есть место для нового игрока, и я думаю, должно появиться много таких решений. Не удивлюсь, если от китайцев.

Что нужно такому девайсу? Не так уж и много:
* Хранить большие модели и уметь держать их в памяти, готовой к быстрому инференсу
* Эффективный инференс
* Возможность скейлить test-time compute (при эффективном инференсе должно быть из коробки, но допускаю, что можно сделать это субоптимально)
* Хорошая сеть, но без безумств
* Полноценное обучение не нужно (не те масштабы), но файнтюнинг (LoRA) может быть осмысленным
* Как бонус/другая важная ниша (под которую может быть нужен отдельный тип девайса ближе к Digits) -- это обучение локальных моделей (мелкая ИИ разработка)

Интересно, кто сделает и когда.

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/3183

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov.
from it


Telegram gonzo-обзоры ML статей
FROM American