Telegram Group & Telegram Channel
SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz



group-telegram.com/ai_newz/3461
Create:
Last Update:

SmolVLM - новая VLM с мизерным потреблением памяти

Huggingface заделали конкурента для moondream, маленькой 2B VLM, о которой я рассказывал на прошлой неделе. К SmolLM 2 1.7B прицепили visual encoder от SigLIP.
Модель при мизерном потреблении памяти еще и умудряется сильно обскакать moondream по качеству! Эх, догоняйте, стартаперы!

Так мало памяти SmolVLM кушает из-за более эффективной токенизации картинок. Из-за большего размера патчей в картинках, на тот же промпт, где у SmolVLM уходит 1,2к токенов, у Qwen2-VL 2B уходит 16к. Таким образом, при одинаковом количестве параметров, SmolVLM вплоть до 5x быстрее и кушает почти в три раза меньше памяти. Размер патча в SigLip увкличили за счет применения к закодированной кантинке блока Pixel shuffle, который дополнительно уменьшает количество токенов в 9 раз. Pixel Shuffle преобразует квадраты из 3x3 токенов в один токен, перещая токены из spacial размерности в channels.

Все же тут палка о двух концах - хоть Qwen и медленнее, но качество у него сильно выше.

В принципе из-за такой эффективности модель могла бы быть довольно хороша для понимания видео, но, к сожалению, длина контекста всего 16к.

Демо
Веса
Блогпост

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/3461

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from es


Telegram эйай ньюз
FROM American