Telegram Group & Telegram Channel
✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/antidigital/8661
Create:
Last Update:

✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.

BY Нецифровая экономика




Share with your friend now:
group-telegram.com/antidigital/8661

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. NEWS "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels.
from es


Telegram Нецифровая экономика
FROM American