data_analysis_ml 3640 Telegram Group

Анализ данных (Data analysis)

📄 ColQwen2: поиск по документам с учётом визуального оформления

ColQwen2 — это модифицированная версия модели ColPali, предназначенная для поиска документов по их визуальным признакам, а не только по тексту.

🔧 Как работает:
• Каждая страница обрабатывается как изображение
• Используется Qwen2-VL для извлечения не только текста, но и таблиц, графиков, макета
• Создаются мультивекторные эмбеддинги
• Поиск основан на сравнении этих векторов (late interaction)

📌 Зачем это нужно:
Такой подход помогает точнее находить нужные документы — особенно если они содержат сложную структуру, таблицы или нестандартный формат.

Подходит для:
– PDF-файлов
– Отсканированных документов
– Презентаций и отчётов с визуальными элементами

https://huggingface.co/docs/transformers/main/en/model_doc/colqwen2

@data_analysis_ml

#Qwen

4.2K views06:04

Анализ данных (Data analysis)

🎥 Video-XL-2 — модель для понимании длинных видео

Многие модели хорошо справляются с бенчмарками, но начинают "захлёбываться", когда ролики становятся длиннее. Video-XL-2 создана, чтобы работать быстро и эффективно с длинными видео, не теряя в качестве.

🔑 Ключевые особенности:
• ⚡ Высокая скорость + низкое потребление памяти
• 🎯 SOTA-показатели среди open-source моделей с аналогичным размером
• 🔁 Поддержка до 10 000+ кадров на одной GPU
• 🧩 Инновации в архитектуре: chunk-based pre-filling и выборочное KV-декодирование

📊 Результаты на бенчмарках:
• MLVU — 74.9
• VideoMME — 66.4
• LVBench — 48.6
При этом модель использует меньше FLOPs, чем конкуренты, даже на больших входных данных — это говорит об отличной энергоэффективности.

🧪 Хорошо справляется с задачами:
– Понимание длинных видеороликов
– Поиск по видео
– Временная локализация событий (Temporal Grounding)

📎 Подробнее и демо

@data_analysis_ml

#AI #VideoUnderstanding #ML #LLM #Multimodal #BAAI

4.3K views10:59

Анализ данных (Data analysis)

⚡️Кто такие дата-инженеры и почему без них не обойтись современному бизнесу?

Сейчас каждая компания собирает тонны данных: продажи, клиенты, маркетинг, логистика. Но сырые цифры бесполезны, если их нельзя превратить в понятные отчёты и выводы.

Приглашаем вас на вебинар 3 июня в 18:30 по МСК, где наш новый спикер — Владислав Вареник, Data Engineer в Сравни.ру — расскажет кто такие дата-инженеры и как они ускоряют работу бизнеса.

Что вы узнаете на вебинаре?
🟠Поговорим о профессии дата-инженера и почему эта профессия востребована.
🟠Как устроен процесс работы с данными.
🟠Как автоматизировать отчёты с помощью dbt и SQL.
🟠Пример из реальной практики.

Даже если вы далеки от аналитики — покажем, как начать с нуля и быстро получить результат. Не упустите шанс научиться тому, что будет цениться ещё десятки лет! 🚀

🕗 Встречаемся 3 июня в 18:30 по МСК

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

4.5K views13:15

Анализ данных (Data analysis)

🚀 AGI уже в 2025?

Сэм Альтман (OpenAI) и Илон Маск (xAI) — дали самые смелые прогнозы в индустрии.

Оба уверенно заявляют: AGI появится до конца 2025 года.

🧠 Альтман: "Теперь мы уверены, что знаем, как построить AGI"

4.8K views15:15

Анализ данных (Data analysis)

🧠 DataTune — простой способ оптимизировать датасеты для ИИ

Это инструмент с открытым исходным кодом, который помогает улучшать качество датасетов для обучения LLM и других моделей.

Что делает DataTune:
▪ Автоматически находит и удаляет дубликаты
▪ Фильтрует нерелевантные, шумные и некачественные примеры
▪ Сортирует данные по «ценности» — оставляя то, что реально важно
▪ Работает с любыми текстовыми коллекциями (JSONL, TXT, HuggingFace Datasets)

🛠 Основан на embedding-моделях — сравнивает смысловую близость и уникальность примеров. Подходит для:
• Fine-tuning LLM
• Подготовки eval-наборов
• Фильтрации перед RAG

📦 Установка:


pip install datatune

https://github.com/vitalops/datatune

@data_analysis_ml

4.4K viewsedited 10:19

Анализ данных (Data analysis)

1:33

This media is not supported in your browser

VIEW IN TELEGRAM

🧠 Cua — лёгкий open-source агентный фреймворк на Python

Cua — это минималистичный Python-фреймворк для создания LLM-агентов, ориентированный на простоту, прозрачность и модульность. Название «Cua» расшифровывается как Composable Universal Agents.

📦 Особенности:
• Всего ~1,000 строк кода — легко читать, расширять и встраивать
• Поддержка OpenAI, Anthropic, Mistral и других LLM-провайдеров
• Нативные компоненты: агент, память, инструменты, цепочки
• Интерфейс совместим с langchain и autogen, но гораздо проще

🚀 Что можно делать:
• Создавать собственных агентов и наделять их инструментами
• Интегрировать внешние API и базы данных
• Вести диалоги, обрабатывать документы, выполнять цепочки задач
• Быстро запускать эксперименты с собственными LLM-пайплайнами

🛠 Примеры в репозитории:
- Агент с памятью и функцией поиска
- Диалоговый бот с цепочкой инструкций
- Генерация кода на основе естественного языка
- Интеграция с HuggingFace и другими API

📚 Для кого подойдёт:
• Тем, кто ищет простой аналог LangChain
• Исследователям, которым нужно прозрачное поведение без «магии»
• Разработчикам, экспериментирующим с LLM-агентами

🔗 GitHub

4.2K views16:01

Анализ данных (Data analysis)

Цена доставки изменилась за 3 минуты? Это не магия. Это Switcher

⏳ Как платформы влияют на нашу готовность платить?
📦 Что происходит «под капотом» Авито-доставки?
🧩 И как собрать ценообразование, когда пользователей — миллионы?

В кресле — Даша Пучкова, старший аналитик команды ценообразования доставки.
В фокусе — логика, данные и неожиданные эффекты от алгоритмов.
В голове — баланс между оптимизацией и пользовательским доверием.

Смотреть второй выпуск → по ссылке.

4.0K views08:02

Анализ данных (Data analysis)

🤖 Eso-LMs — новая архитектура языковых моделей, объединяющая лучшее из autoregressive и diffusion-подходов

Исследователи представили Eso-LMs (Esoteric Language Models) — модель, которая совмещает два разных способа генерации текста:

🔹 Autoregressive (AR) — как GPT: генерирует токен за токеном
🔹 MDM (Masked Diffusion Models) — как диффузионные модели, восстанавливающие текст пошагово

Обычно эти подходы несовместимы, но Eso-LMs объединяет их с помощью:
- нового attention-механизма, который работает и для AR, и для MDM
- гибридной функции потерь, позволяющей переключаться между стилями генерации

💡 Что делает Eso-LMs уникальной:

⚡ В 65 раз быстрее, чем обычные diffusion-модели
⚡ В 4 раза быстрее, чем гибридные модели с KV-кэшем
📈 Генерирует качественный текст с низкой perplexity
💬 Умеет работать параллельно и быстро, без потерь в смысле

📦 Что внутри репозитория:

• Два варианта модели: Eso-LM (A) и Eso-LM (B)
• Поддержка разных архитектур: DiT, AR-трансформеры и др.
• Скрипты для обучения, оценки и генерации текстов
• Настройки, логи, загрузка данных и прочая инфраструктура

🛠 Это не просто ещё одна LLM — это попытка соединить два мира генерации текста и ускорить inference без потери качества.

🔗 Подробнее

4.0K views10:02

Анализ данных (Data analysis)

⚡️Пошаговый план: как стать аналитиком данных в 2025

Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если мне 30/40/50+ лет?

Андрон Алексанян — эксперт по аналитике с 8-летним опытом и по совместительству CEO Simulative — покажет рабочие схемы и чёткий план, как устроиться в аналитику быстрее, даже если у вас нет опыта

Что будет на вебинаре?

🟠 Разберёте полный роадмап: что учить, в каком порядке, до какого уровня;
🟠 Лайфхаки трудоустройства:
— покажут реальные примеры, как оформить резюме и портфолио, чтобы привлекать внимание;
— обсудите, какие отклики работают, а какие сразу отправляют в корзину;
— изнанка найма: инсайдерский взгляд на процессы отбора
🟠 Практические техники для новичков: разберёте, как компенсировать недостаток опыта и быстро закрывать пробелы в знаниях

🕗 Важно досмотреть вебинар до конца, чтобы получить бонус от Simulative, который поможет бустануть карьеру

😶Зарегистрироваться на бесплатный вебинар

Please open Telegram to view this post

VIEW IN TELEGRAM

3.9K views15:04

Анализ данных (Data analysis)

Forwarded from Machinelearning

⚡️Релиз Qwen3-Embedding и Qwen3-Reranker

✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud

🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.

🟡

Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f

🟡

Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

🟡

GitHub: https://github.com/QwenLM/Qwen3-Embedding

🟡

Modelscope: https://modelscope.cn/organization/qwen

@ai_machinelearning_big_data

#qwen

Please open Telegram to view this post

VIEW IN TELEGRAM

3.0K views17:04

Анализ данных (Data analysis)

1:14

Media is too big

VIEW IN TELEGRAM

🤖 Figure 02 уже сегодня сортирует, перемещает и анализирует десятки товаров одновременно

Наблюдая за такими роботами, сложно представить, что через год в логистике и на складах будут работать люди.
Скорость, с которой они развиваются, — просто ошеломляющая.

То, что ещё недавно казалось фантастикой, уже становится реальностью.
И происходит это быстрее, чем мы успеваем привыкнуть.

@data_analysis_ml

4.3K viewsedited 07:07

Анализ данных (Data analysis)

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

🎬 Tencent выложила в открытый доступ код и веса модели **HunyuanCustom** — инструмента для кастомизации видео, управляемого аудио или другим видео.

🔊 Модель может на лету изменять видео на основе звуковой дорожки
🎥 Или адаптировать ролик под другое видео-вход
🧠 Подходит для синхронизации движений губ, мимики, анимации по голосу и многого другого

В репозитории доступны:
• Инференс-код
• Весы модели
• Примеры и документация

📂 GitHub

Теперь кастомизация видео — это всего несколько строчек кода.

@data_analysis_ml

#Tencent #Hunyuan

4.2K views12:34

Анализ данных (Data analysis)

Forwarded from Machine learning Interview

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!

Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.

✅ Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций

💡 Бонус для разработчиков:

Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!

🔥 Работает с Google Colab — бесплатно, быстро, удобно.

#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning

✔️

Подробнее

@machinelearning_interview

Please open Telegram to view this post

VIEW IN TELEGRAM

3.4K views07:14

Анализ данных (Data analysis)

🚀 MiniCPM4 — компактная LLM нового поколения

Модель от OpenBMB, которая работает в 5 раз быстрее на конечных устройствах. Отлично подходит для edge-решений и встраивания.

🔧 Что нового:

🏗️ InfLLM v2 — обучаемое разреженное внимание
🧠 Model Wind Tunnel 2.0 — масштабирование с предсказуемой эффективностью
🔢 BitCPM — ультракомпактная тернарная квантизация
📚 UltraClean + UltraChat v2 — чистые датасеты для преобучения и fine-tuning
⚡ CPM.cu + ArkInfer — лёгкий фреймворк для быстрого инференса на GPU и в проде

📖 Technical Report: https://github.com/OpenBMB/MiniCPM/blob/main/report/MiniCPM_4_Technical_Report.pdf
🤗 Models: https://huggingface.co/collections/openbmb/minicpm-4-6841ab29d180257e940baa9b
⭐ GitHub: https://github.com/OpenBMB/MiniCPM

@data_analysis_ml

#LLM #AI #MiniCPM4 #EdgeAI

4.1K views11:04

Анализ данных (Data analysis)

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

• ✂️ Разбивает текст на токены для языковых моделей
• 🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
• 🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
• ⚡ Очень быстрый — написан на Rust с Python-обёрткой
• 📦 Используется как CLI, Python-библиотека или Web API

pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)

🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

4.0K views09:08

2025/06/13 14:27:34
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>