group-telegram.com/ai_machinelearning_big_data/6572
Last Update:
- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.
- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.
- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.
- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.
💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯
- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!
- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.
- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻
- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.
- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.
- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.
👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.
⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.
📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!
@ai_machinelearning_big_data
#ml #digest #datasets #opensource #ai #llm #news