Telegram Group & Telegram Channel
✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/antidigital/8661
Create:
Last Update:

✔️ LLM — персональные и мобильные

Владимир Малиновский из Yandex Research уменьшил размер Llama 3.1 8B с 8 млрд параметров в 6 раз с помощью комбинации методов AQLM и PV-tuning, отчего её стало возможно запустить в браузере и без GPU. При этом в модели размером всего 2,5 Гб удалось сохранить до 80% от исходного качества ответов, утверждает автор проекта.

После загрузки компактная версия Llama 3.1 8B работает без интернета, в том числе и на мобильных устройствах. А само сжатие стало возможным благодаря совместному исследованию Yandex Research вместе с коллегами из университетов IST Austria и KAUST. Ну и не обошлось без программистской магии, о деталях которой Малиновский рассказал в блоге на Хабре.

💻 Компактность и работа on-device становятся новым трендом в области LLM. В конце ноября MTS AI выпустила в паблик сразу несколько версий Cotype Nano с улучшенной оптимизацией под CPU и мобильные устройства. Модель уже тогда сравнивали с линейкой Llama.

Обычно большие языковые модели — штука прожорливая, особенно когда дело касается ресурсов GPU. Теперь же мы буквально наблюдаем бум компактных моделей и решений для их сжатия, которые всё чаще ориентируются на работу с маломощными системами. Ну и лучше подходят тем, у кого ограничены поставки решений от Nvidia, как в случае российских компаний.

✔️ И Cotype Nano, и сжатая Llama 3.1 8B отвечают на вопросы с задержкой в пару минут даже на обычном ноутбуке. Запустить на условном смартфоне их тоже можно, хотя производительность не на топовых моделях будет ощутимо хуже. Впрочем, тут ещё вопрос оптимизации: с нативными решениями таких проблем нет.

Инструменты Apple Intelligence на последних iPhone занимают всего около 4 Гб, но пересказывают сообщения и решают другие задачи без подвисаний. ИИ-сервисы Google работают на смартфонах Pixel, а сама компания призывает сторонних разработчиков также запускать свои разработки on-device.

🤖 Сжатие моделей добавило новую плоскость «гонке вооружений» ИИ. Новые функции это, конечно, хорошо. Но вычислительные ресурсы в мире не бесконечные. Кто-то, как OpenAI, активно сжигает деньги и пытается компенсировать это новыми продуктами.

Но, возможно, будущее лежит в более узких применениях ИИ. Зачем условному помощнику банкира знать, кто и когда выигрывал Олимпиаду? Пусть лучше такая LLM будет меньше, но заточена под конкретные задачи, чтобы запустить её можно было на рабочем ноутбуке менеджера по продажам.

🔤🔤Как показало недавнее исследование команды из Apple и Университета Нотр-Дам, у LLM можно найти «супер-веса», от которых особо сильные сигналы распространяются по всей сети модели. Достаточно удалить или изменить всего один параметр, как точность LLM снижается до уровня случайного угадывания.

В этом открытии есть и приятное «но». Удаление даже 7 тысяч других крупных весов может практически никак не повлиять на модель. То есть сжимать LLM можно в разы эффективнее и без потери качества, если знать, какие части можно буквально отбросить в сторону.

BY Нецифровая экономика




Share with your friend now:
group-telegram.com/antidigital/8661

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers.
from in


Telegram Нецифровая экономика
FROM American