Telegram Group & Telegram Channel
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2498
Create:
Last Update:

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2498

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. Telegram Messenger Blocks Navalny Bot During Russian Election Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively.
from no


Telegram эйай ньюз
FROM American