Telegram Group & Telegram Channel
πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/7601
Create:
Last Update:

πŸ“ŒnanoVLM: простой ΠΈ ΠΌΠΎΡ‰Π½Ρ‹ΠΉ инструмСнт для экспСримСнтов с VLM.

nanoVLM - ΠΏΡ€ΠΎΠ΅ΠΊΡ‚, Π²Π΄ΠΎΡ…Π½ΠΎΠ²Π»Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ΠΎΠΌ nanoGPT ΠΎΡ‚ Andrej Karpathy, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΠΈΡΡ‚ΠΈΡ‡Π½ΡƒΡŽ Ρ€Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ VLM Π½Π° чистом PyTorch.

Код ΠΏΡ€ΠΎΠ΅ΠΊΡ‚Π° Π½Π°ΡΡ‚ΠΎΠ»ΡŒΠΊΠΎ прост, Ρ‡Ρ‚ΠΎ Π΄Π°ΠΆΠ΅ Π½ΠΎΠ²ΠΈΡ‡ΠΎΠΊ быстро ΠΏΠΎΠΉΠΌΠ΅Ρ‚, ΠΊΠ°ΠΊ устроСны ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Ρ‹: Vision Backbone (150 строк), Language Decoder (250 строк), проСкция ΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ (50 строк) ΠΈ сама модСль (100 строк). ВсС вмСстС с Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΎΡ‡Π½Ρ‹ΠΌ Ρ†ΠΈΠΊΠ»ΠΎΠΌ умСщаСтся Π² 750 строк β€” идСально для ΠΌΠΎΠ΄ΠΈΡ„ΠΈΠΊΠ°Ρ†ΠΈΠΉ.

Бозданная с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ nanoVLM модСль Π½Π΅ ΠΏΡ€Π΅Ρ‚Π΅Π½Π΄ΡƒΠ΅Ρ‚ Π½Π° Π·Π²Π°Π½ΠΈΠ΅ ΠΏΡ€ΠΎΡ€Ρ‹Π²Π½ΠΎΠΉ, Π½ΠΎ Π΄Π°Π΅Ρ‚ ΠΎΡ‚Π»ΠΈΡ‡Π½ΡƒΡŽ Π±Π°Π·Ρƒ для экспСримСнтов. ΠšΠΎΠΌΠ±ΠΈΠ½Π°Ρ†ΠΈΡ SigLIP-B/16-224-85M (Π²ΠΈΠ·ΡƒΠ°Π»ΡŒΠ½Π°Ρ Ρ‡Π°ΡΡ‚ΡŒ) ΠΈ SmolLM2-135M (языковая) создаСт ΠΊΠΎΠΌΠΏΠ°ΠΊΡ‚Π½ΡƒΡŽ VLM Π½Π° 222 ΠΌΠ»Π½. ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ². ПослС 6 часов обучСния Π½Π° ΠΎΠ΄Π½ΠΎΠΌ H100 GPU ΠΈ 1.7 ΠΌΠ»Π½. ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ² ΠΈΠ· датасСта The Cauldron ΠΎΠ½Π° ΠΏΠΎΠΊΠ°Π·Ρ‹Π²Π°Π΅Ρ‚ 35.3% точности Π½Π° MMStar.

ΠΠ°Ρ‡Π°Ρ‚ΡŒ Ρ€Π°Π±ΠΎΡ‚Ρƒ ΠΌΠΎΠΆΠ½ΠΎ 3 способами: ΠΊΠ»ΠΎΠ½ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΉ, Π·Π°ΠΏΡƒΡΡ‚ΠΈΡ‚ΡŒ Π³ΠΎΡ‚ΠΎΠ²Ρ‹ΠΉ Colab-Π½ΠΎΡƒΡ‚Π±ΡƒΠΊ ΠΈΠ»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΠΎΠ²Π°Ρ‚ΡŒ ΠΈΠ½Ρ‚Π΅Ρ€Π°ΠΊΡ‚ΠΈΠ²Π½Ρ‹ΠΉ Ρ‚ΡƒΡ‚ΠΎΡ€ΠΈΠ°Π» Π² Ρ„ΠΎΡ€ΠΌΠ°Ρ‚Π΅ ipynb. Π”Π°ΠΆΠ΅ Ссли Ρƒ вас Π½Π΅Ρ‚ доступа ΠΊ Ρ‚ΠΎΠΏΠΎΠ²ΠΎΠΌΡƒ ΠΆΠ΅Π»Π΅Π·Ρƒ, экспСримСнты Π½Π° Google Colab Π½Π° бСсплатном Ρ‚ΠΈΠ΅Ρ€Π΅ Π²ΠΏΠΎΠ»Π½Π΅ Ρ€Π΅Π°Π»ΡŒΠ½Ρ‹. Установка максимально ΠΎΠ±Π»Π΅Π³Ρ‡Π΅Π½Π°: зависимости ΠΌΠΈΠ½ΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹, Π° Π»ΠΎΠ³ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΈ Π·Π°Π³Ρ€ΡƒΠ·ΠΊΠ° ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠ² ΡƒΠΆΠ΅ встроСны.

nanoVLM ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎ ΠΏΠΎΠ΄ΠΎΠΉΠ΄Π΅Ρ‚ ΠΊΠ°ΠΊ ΠΎΠ±Ρ€Π°Π·ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½Ρ‹ΠΉ ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ ΠΈΠ»ΠΈ Ρ‚Ρ€Π΅Π½Π°ΠΆΠ΅Ρ€ Ρ‡Ρ‚ΠΎΠ±Ρ‹ ΠΈΠ·ΡƒΡ‡Π°Ρ‚ΡŒ VLM. Π’ Π½Π΅ΠΌ Π΅ΡΡ‚ΡŒ всС для старта β€” ΠΎΡ‚ понятного ΠΊΠΎΠ΄Π° Π΄ΠΎ Ρ€Π°Π±ΠΎΡ‡ΠΈΡ… ΠΏΡ€ΠΈΠΌΠ΅Ρ€ΠΎΠ². Если Π²Ρ‹ Ρ…ΠΎΡ‚ΠΈΡ‚Π΅ ΡΠΎΠ·Π΄Π°Ρ‚ΡŒ свою ΠΌΡƒΠ»ΡŒΡ‚ΠΈΠΌΠΎΠ΄Π°Π»ΡŒΠ½ΡƒΡŽ модСль, Π½ΠΎ Π±ΠΎΠΈΡ‚Π΅ΡΡŒ слоТностСй, nanoVLM станСт ΠΎΡ‚Π»ΠΈΡ‡Π½ΠΎΠΉ пСсочницСй для экспСримСнтов.


🟑МодСль
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #NanoVLM #Github

BY Machinelearning




Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/7601

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Anastasia Vlasova/Getty Images One thing that Telegram now offers to all users is the ability to β€œdisappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from us


Telegram Machinelearning
FROM American