Telegram Group & Telegram Channel
Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.

Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.

Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.

Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.

Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост

@ai_newz



group-telegram.com/ai_newz/3363
Create:
Last Update:

Meta выпустила официальные квантизированные версии Llama 3.2 1B и 3B практически без потерь в качестве. Модели стали более чем в два раза меньше, от 2 до 4 раз быстрее и используют на 41% меньше памяти.

Вышло добиться этого через умные схемы квантизации плюс quantization-aware training. Без этого средняя потеря в качестве от квантизации — почти 20%, а так вышло добиться потери в 8% на более быстрой квантизации SpinQuant и чуть больше 1% при квантизации с QLoRa.

Важное отличие от обычной квантизации — то, что тут квантизированы не только веса, но и активации. Это позволит запускать эти модели на NPU, которые куда лучше работают с 8-битными вычислениями. NPU в наше время есть во всех смартфонах и в последних поколениях всех десктопов и ноутбуков (AMD, Apple, Intel, Qualcomm); их использование позволит ещё сильнее ускорить модели при более высокой энергоэффективности.

Другим компаниям провернуть такое было бы крайне сложно, так как нет доступа к такому количеству ресурсов и изначальному процессу тренировки, и очень легко накосячить, особенно учитывая тот факт, что Llama 3 — это одна из самых сложных моделей для квантизации.

Веса (если уже есть доступ к Llama 3.2, ещё раз просить не нужно)
Блогпост

@ai_newz

BY эйай ньюз





Share with your friend now:
group-telegram.com/ai_newz/3363

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Telegram Messenger Blocks Navalny Bot During Russian Election Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp.
from jp


Telegram эйай ньюз
FROM American