Telegram Group & Telegram Channel
✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/antidigital/8661
Create:
Last Update:

✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.

BY Нецифровая экономика




Share with your friend now:
group-telegram.com/antidigital/8661

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders.
from us


Telegram Нецифровая экономика
FROM American