Telegram Group & Telegram Channel
Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.

Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.

Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.

Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.

Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост

@ai_newz



group-telegram.com/ai_newz/3363
Create:
Last Update:

Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.

Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.

Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.

Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.

Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3363

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Despite Telegram's origins, its approach to users' security has privacy advocates worried. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation."
from us


Telegram эйай ньюз
FROM American