Telegram Group & Telegram Channel
SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz



group-telegram.com/ai_newz/3461
Create:
Last Update:

SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3461

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from ua


Telegram эйай ньюз
FROM American