Telegram Group & Telegram Channel
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2498
Create:
Last Update:

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2498

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat.
from br


Telegram эйай ньюз
FROM American