Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).
Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)
Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).
Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).
UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).
Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).
Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)
Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).
Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).
UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).
In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from ms