Telegram Group & Telegram Channel
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2498
Create:
Last Update:

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

СОТА Модели быстро растут в размере (гляньте только на триллионы параметров в GPT-4 и будующей GPT-5), а гонять их хочется быстро и занедорого. Похтому приходится ухищряться со всякими квантизациями.

С BitNet 1.58, новым методом тренировки от Microsoft, моделька натренированная по рецепту от StableLM 3B (тот же датасет, столько же параметров, тренировали на тех же двух триллионах токенов) использует в 20 раз меньше энергии, в 3.5 раза меньше памяти при инференсе и в 2.7 раза быстрее по сравнению с fp16 моделью, при этом имея такое же качество 😱.

Как?
Авторы предлагают заменить обычный Linear слой на слой BitLinear, где тренируются скрытые веса, которые во время forward pass квантизируются: через absmean, веса делятся на среднее абсолютное значение и округляются к ближайшему значению из {-1, 0, 1}. Активации квантизируются 8-битным absmax-ом. Для бэкпропа через квантизацию используется straigth-through estimator. Квантизация повышает стабильность тренировки и позволяет поставить learning rate в несколько раз выше чем для fp16 модели. Остальные части модели не меняются, эмбеддинги не квантизируются. Судя по пейперу для инференса используется исключительно int8.

На моделях меньше 3B - BitNet 1.58 отстаёт по качеству, хотя всё ещё значительно быстрее. Зато на моделях большего размера преимущества по скорости только растут: гипотетическая BitNet 1.58 70B должна кушать в 41 раз меньше энергии, в 7.16 раз меньше памяти и быть в 4.1 раза быстрее.

Обещают выложить код и веса - ждемс! Хочу, чтобы наконец модель на триллион параметров бегала у меня под столом.

Статья
Код будет тут

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2498

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.”
from us


Telegram эйай ньюз
FROM American