Telegram Group & Telegram Channel
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2498
Create:
Last Update:

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2498

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from in


Telegram эйай ньюз
FROM American