Telegram Group & Telegram Channel
✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/antidigital/8661
Create:
Last Update:

✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.

BY Нецифровая экономика




Share with your friend now:
group-telegram.com/antidigital/8661

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks dropped on Friday afternoon, as gains made earlier in the day on hopes for diplomatic progress between Russia and Ukraine turned to losses. Technology stocks were hit particularly hard by higher bond yields. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Founder Pavel Durov says tech is meant to set you free You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can."
from sg


Telegram Нецифровая экономика
FROM American