Telegram Group & Telegram Channel
✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/antidigital/8661
Create:
Last Update:

✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.

BY Нецифровая экономика




Share with your friend now:
group-telegram.com/antidigital/8661

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more.
from de


Telegram Нецифровая экономика
FROM American