Telegram Group & Telegram Channel
📌nanoVLM: простой и мощный инструмент для экспериментов с VLM.

nanoVLM - проект, вдохновленный подходом nanoGPT от Andrej Karpathy, который предлагает минималистичную реализацию VLM на чистом PyTorch.

Код проекта настолько прост, что даже новичок быстро поймет, как устроены компоненты: Vision Backbone (150 строк), Language Decoder (250 строк), проекция модальностей (50 строк) и сама модель (100 строк). Все вместе с тренировочным циклом умещается в 750 строк — идеально для модификаций.

Созданная с помощью nanoVLM модель не претендует на звание прорывной, но дает отличную базу для экспериментов. Комбинация SigLIP-B/16-224-85M (визуальная часть) и SmolLM2-135M (языковая) создает компактную VLM на 222 млн. параметров. После 6 часов обучения на одном H100 GPU и 1.7 млн. примеров из датасета The Cauldron она показывает 35.3% точности на MMStar.

Начать работу можно 3 способами: клонировать репозиторий, запустить готовый Colab-ноутбук или использовать интерактивный туториал в формате ipynb. Даже если у вас нет доступа к топовому железу, эксперименты на Google Colab на бесплатном тиере вполне реальны. Установка максимально облегчена: зависимости минимальны, а логирование и загрузка параметров уже встроены.

nanoVLM отлично подойдет как образовательный проект или тренажер чтобы изучать VLM. В нем есть все для старта — от понятного кода до рабочих примеров. Если вы хотите создать свою мультимодальную модель, но боитесь сложностей, nanoVLM станет отличной песочницей для экспериментов.


🟡Модель
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7601
Create:
Last Update:

📌nanoVLM: простой и мощный инструмент для экспериментов с VLM.

nanoVLM - проект, вдохновленный подходом nanoGPT от Andrej Karpathy, который предлагает минималистичную реализацию VLM на чистом PyTorch.

Код проекта настолько прост, что даже новичок быстро поймет, как устроены компоненты: Vision Backbone (150 строк), Language Decoder (250 строк), проекция модальностей (50 строк) и сама модель (100 строк). Все вместе с тренировочным циклом умещается в 750 строк — идеально для модификаций.

Созданная с помощью nanoVLM модель не претендует на звание прорывной, но дает отличную базу для экспериментов. Комбинация SigLIP-B/16-224-85M (визуальная часть) и SmolLM2-135M (языковая) создает компактную VLM на 222 млн. параметров. После 6 часов обучения на одном H100 GPU и 1.7 млн. примеров из датасета The Cauldron она показывает 35.3% точности на MMStar.

Начать работу можно 3 способами: клонировать репозиторий, запустить готовый Colab-ноутбук или использовать интерактивный туториал в формате ipynb. Даже если у вас нет доступа к топовому железу, эксперименты на Google Colab на бесплатном тиере вполне реальны. Установка максимально облегчена: зависимости минимальны, а логирование и загрузка параметров уже встроены.

nanoVLM отлично подойдет как образовательный проект или тренажер чтобы изучать VLM. В нем есть все для старта — от понятного кода до рабочих примеров. Если вы хотите создать свою мультимодальную модель, но боитесь сложностей, nanoVLM станет отличной песочницей для экспериментов.


🟡Модель
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github

BY Machinelearning




Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7601

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands.
from us


Telegram Machinelearning
FROM American