Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).

Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)

Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).

Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).

UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).



group-telegram.com/seeallochnaya/2273
Create:
Last Update:

Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).

Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)

Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).

Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).

UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).

BY Сиолошная


Share with your friend now:
group-telegram.com/seeallochnaya/2273

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added.
from id


Telegram Сиолошная
FROM American