group-telegram.com/ai_newz/3265
Last Update:
Теперь в LLama официально завезли поддержку изображений! До этого мы имели в open-source только сторонние поделки вроде LLaVa и InternVL (они брали Llama3 за основу и тюнили).
Теперь модель понимает графики и диаграммы, описывает изображения и может находить на них объекты по описаниям.
Например, пользователь может спросить, в каком месяце его компания имела лучшие продажи, и модель даст ответ на основе доступных графиков.
Есть несколько размеров:
- Маленькая модель - 11B параметров
- Средняя - 90B. Обходит GPT-4o-mini по Vision бенчам.
- Более легковесные text-only модели: 1B и 3B параметров. Как раз, чтобы бегать локально на девайсах. 3B обходит Gemma 2 и Phi-3.5 - Mini.
- Контекст 128,000 токенов, как и в LLama 3.1
С легковесными моделями можно создавать персонализированые приложения с агентами в закрытой среде - например, резюмировать ваши сообщения, емейлы или отправлять приглашения в календарь.
И теперь с Llama 3.2 ждём очередной большой скачок качества Multimodal LLM в опенсорсе!
Блогпост
Веса на HF
@ai_newz