Telegram Group & Telegram Channel
⭐️ Самые интересные Open Source AI релизы за неделю

- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data


#ml #digest #datasets #opensource #ai #llm #news
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_machinelearning_big_data/6572
Create:
Last Update:

⭐️ Самые интересные Open Source AI релизы за неделю

- VideoChat2-Flash, мощный MLLM, построенный на базе видеокодера (UMT) и LLM (Qwen).
Внутри новая высокоэффективная архитектура модели с исключительной скоростью инференса, которая позволяет кодировать каждый видеокадр всего в 16 токенов, что в 5-10 раз быстрее, чем в предыдущей модели OpenGVLab.
Модели представлены в размерах 2B и 7B и разрешении 224 и 448.

- BytedanceTalk выпустил модель SA2VA с параметрами 26B.
Sa2VA - это MLM, способный отвечать на вопросы, понимать изображения и видео выполнять сегментацию. Модель, сопоставима с SOTA моделями в своем классе Qwen2-VL и InternVL2.5 в QA тестах.

- VRC-Bench - это новый бенчмарк для оценки эффективности мультимодальных LLM.

- MiniCPM-o 2.6 - это новая мультимодальная модель с 8B параметрами, работающая на edge девайсах. Лучшая в своем классе возможности двуязычной речи с разговором в реальном времени и клонированием голоса.

💬 LLM
- MiniMax-Text-01 - новая языковая модель, которая стабильно обходит GPT-4o и Gemini-2 на бенчмарках с длинным контекстом, сохраняя высокие оценки (0.910-0.963) при длине контекста до 4M токенов🤯

- Датасет: Sky-T1-data-17k - это разнообразный набор данных, используемый для обучения Sky-T1-32B - ризонинг модели, которую можно обучить всего за 450 долларов!

- Kyutai labs выпустили Helium-1 Preview 2B - многоязычный LLM для edge девайсов и мобильных устройств.

- Wayfarer-12B - новая модель генерации текстовой приключенческой ролевой игры от AI Dungeon🧙🏻

- ReaderLM-v2 - это новая модель синтаксического анализа HTML от JinaAI.

- Вriaforall выпустила Dria-Agent-a-3B, новую модель генерации кода (для Python), основанную на Qwen2.5.

- UnslothAI адаптировали Phi-4 к архитектуре Llama 3.3 сделав, более быструю и экономичную по памяти версию.

👀 Vision
- MatchAnything - это новая универсальная модель для сопоставления изображений.
- FitDit - это высококачественная модель виртуальной примерочной, основанная на архитектуре DiT.

⭐️ Аудио
- OuteTTS-0.3-1B - это новая многоязычная модель преобразования текста в речь с возможностью клонирования голоса и управления эмоциями.

📖 Поиск
- Lightblue выпустила новую модель для поиска связи в тексте, основанную на Qwen2.5. LB-reranker-0.5B-v1.0, которая поддерживает более 95 языков
- cde-small-v2 - это новая SOTA модель эмбедингов текста небольшого размера.

🧠 Playground
LeetGPU - бесплатная платформа для написания и запуска кода на CUDA.
Вы можете практиковаться и изучать CUDA онлайн, без использования графического процессора!

@ai_machinelearning_big_data


#ml #digest #datasets #opensource #ai #llm #news

BY Machinelearning




Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6572

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. Despite Telegram's origins, its approach to users' security has privacy advocates worried. The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from ye


Telegram Machinelearning
FROM American