Telegram Group & Telegram Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).

Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)

Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).

Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).

UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).



group-telegram.com/seeallochnaya/2273
Create:
Last Update:

Всё никак не дойдут руки нормально написать про R1 и DeepSeek (ждите на неделе), а умельцы из Unsloth взяли этого гиганта весом более чем в 700 гигабайт и пожали в ~150-180 (влезет в 3 карты по 80GB).

Да так пожали, что модель всё ещё выдаёт что-то адекватное — смотрите на гифке генерации аналога игры FlappyBird. Авторы делали 3 генерации и оценивали их по 10-бальной шкале по нескольким критериям, и пожатая модель выбивала 9+)

Секрет в том, что отбирают примерно ~12% самых важных весов (первые слои + shared-эксперты + SuperWeights) и оставляют их почти не сжатыми, а остальные (в основном веса экспертов) квантизируются по методу 1.58 bit от Microsoft (помните была такая статья хайповая?).

Больше деталей в блогпосте, но я удивлён, что прям ТАК жмётся. Интересно дождаться замеров нормальных метрик, насколько сильно проседает по широкому набору бенчмарков, включая знания (не только рассуждения).

UPD: написали, что версия, которая влазит в 2 GPU (она пожата чуть больше -> качество хуже) выдаёт 140 токенов в секунду (что больше чем у любых провайдеров и у o1 — в несколько раз).

BY Сиолошная


Share with your friend now:
group-telegram.com/seeallochnaya/2273

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. "He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said.
from fr


Telegram Сиолошная
FROM American