Telegram Group Search
Исследователи Яндекса разработали и выложили в опенсорс один из крупнейших датасетов для развития рекомендательных систем — YaMBDa

Датасет включает 4,79 миллиардов обезличенных пользовательских действий в Яндекс Музыке. Он включает в себя только числовые идентификаторы, что позволяет сохранить конфиденциальность.

Открытые датасеты такого масштаба от коммерческих компаний — редкость. При этом даже те, что есть (LFM-1B, LFM-2B) со временем стали недоступны из-за лицензионных ограничений, а популярные датасеты от Steam или Netflix Prize фокусировались лишь на обратной связи и содержали несколько десятков млн взаимодействий.

Поэтому, во-первых, у большинства исследователей попросту не было доступа к web‑scale‑сервисам, следовательно — и возможности протестировать алгоритмы в условиях, приближенных к реальности. А во-вторых, многие датасеты не позволяли разделить выборку на train и test по хронологии: это критично, когда речь идет об алгоритмах, которые должны предсказывать будущее, а не анализировать прошлое.

YaMBDa (YAndex Music Billion-interactions DAtaset) решает обе проблемы. Его можно использовать не только для оценки качества стримминговых систем, но и для e-commerce, соцсетей и других задач рекомендаций. Датасет доступен в трех вариантах: полная версия содержит почти 5 млрд данных, а уменьшенные — 500 млн и 50 млн. Можно выбрать версию, которая соответствует задачам и вычислительным ресурсам. Используя этот датасет, разработчики, исследователи и молодые ученые смогут тестировать и улучшать алгоритмы в продуктах, где используются рекомендательные системы.
“A Brief Introduction to Neural Networks” — это один из самых понятных и тщательно структурированных гайдoв по нейронным сетям от David Kriesel.

📘 Что внутри:
• Биология → формальные модели
• Обучение с учителем и без
• Персептроны, рекуррентные сети, SOM (карты Кохонена)
• Обратное распространение ошибки, Hebbian learning и не только
• Много схем, математики и объяснений "на пальцах"

💻 Хочешь поиграться с примерами? Всё можно попробовать на практике с фреймворком SNIPE (на Java), который идёт вместе с гайдом.

🔗 Читать/скачать (EN):
https://dkriesel.com/en/science/neural_networks

@machinelearning_interview
📦 Новые возможности для ML

На конференции Data&ML2Business представили обновления Yandex Cloud AI Studio: теперь можно дообучать эмбеддинги, работать с PDF и таблицами, использовать рефразер для уточнения запросов и использовать модели через совместимый с OpenAI API.

Все эти возможности требуют надёжной инфраструктуры для хранения и обработки данных — и здесь в игру вступает YTsaurus. Это платформа для хранения и обработки эксабайтных данных, которую Яндекс изначально разрабатывал для внутренних задач. Теперь она доступна бизнесу как управляемый сервис в Yandex Cloud, с поддержкой как облачного, так и on-premise развертывания.

🛠 Что внутри:
• Распределённая файловая система + MapReduce
• Интеграция с Yandex Managed Spark
• Поддержка SQL-запросов, потоковой обработки и ML-задач
• Техническая поддержка развёртывания под enterprise

Также вышел редактор для кастомизации визуализаций в DataLens (на JS) и витрина готовых дашбордов - удобно для внутренних BI-решений.

🤖 Хабр

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 EPiC

Метод эффективного обучения управления камерой с использованием точного сопоставления видео и опорных точек.

Github
Прокачай навыки общения с ИИ с мощной базой знаний от экспертов Anthropic — всё, что нужно для уверенного промпт-инжиниринга и уменьшения ошибок при работе с нейросетями.

🔍 Что внутри:
• Подробный разбор структуры промптов: от скелета до ключевых формулировок
• Частые ошибки при взаимодействии с ИИ — и как их избежать
• Реальные кейсы на основе Claude
• Примеры качественных запросов + десятки готовых промптов
• Всё это — абсолютно БЕСПЛАТНО

Начни понимать ИИ не просто лучше — мастерски:

Github
Forwarded from Machinelearning
🌟 PlayDiffusion: инпейнт для речи.

Те, кто работает с синтезом речи, знают, что авторегрессионные трансформерные модели, хоть и хороши для генерации речи из текста с нуля, но создают кучу проблем, когда нужно редактирование. Стандартные методы, в виде полной перегенерации предложения, обходятся дорого по ресурсам и часто приводят к изменению интонации или ритма.

Замена отдельного слова обычно оставляет неприятные «склейки» на границах, а перегенерация с середины фразы может испортить уже существующую часть. Все это бьет по естественности и связности звучания.

PlayAI выпустила PlayDiffusion 1.0 – диффузионную модель для редактирования речи, которая умеет изменять нужные участки аудио, сохраняя при этом общую гладкость и характеристики голоса. Причем модель пригодна как для реальной речи, так и для аудио, сгенерированного другими TTS-моделями.

В PlayDiffusion аудиопоток кодируется в дискретное пространство, превращаясь в более компактную последовательность токенов. Затем, тот сегмент, который требует модификации маскируется.

После этого задействуется сама диффузионная модель. Она, опираясь на обновленный текстовый контент, «восстанавливает» замаскированную область, убирая шум. На выходе последовательность токенов снова преобразуется в полноценный звук с помощью декодера BigVGAN.

Чтобы добиться таких результатов, PlayAI взяли за основу текстовую трансформерную архитектуру и внесли несколько ключевых модификаций:

🟢Во-первых, это некаузальное маскирование, позволяющее модели одновременно учитывать прошлые, настоящие и будущие токены, в отличие от стандартных GPT-подобных моделей.

🟢Во-вторых, используется кастомный BPE-токенизатор всего на 10 000 текстовых токенов, что резко сокращает размер таблицы эмбеддингов и ускоряет вычисления.

🟢В-третьих, модель учитывает характеристики диктора с помощью предобученной эмбеддинг-модели, которая преобразует аудиозаписи переменной длины в векторы фиксированного размера.

Интересно, что если замаскировать вообще всю аудиодорожку, PlayDiffusion может работать как TTS. В отличие от авторегрессионных моделей, которые генерируют каждый токен последовательно, опираясь на предыдущие, диффузионные модели генерят все токены одновременно, а затем уточняют их за фиксированное число шагов.

Например, для генерации 20 секунд аудио кодеком на 50 Гц авторегрессионной модели потребуется 1000 шагов. PlayDiffusion же способен выдать все 1000 токенов сразу и уточнить их всего за 20 итераций – это до 50 раз эффективнее по количеству шагов генерации.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Модель
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #TTS #Inpainting #PlayDiffusion #PlayAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 AGI уже в 2025?

Сэм Альтман (OpenAI) и Илон Маск (xAI) — дали самые смелые прогнозы в индустрии.

Оба уверенно заявляют: AGI появится до конца 2025 года.

🧠 Альтман: "Теперь мы уверены, что знаем, как построить AGI"
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Видение идеального ИИ от Сэма Альтмана (OpenAI):

> "Крошечная модель с сверхчеловеческим мышлением, контекстом на 1 триллион токенов и доступом ко всем возможным инструментам."

Звучит как научная фантастика? Возможно.
Но это именно то, к чему стремится OpenAI.

🤔 Интересно — не об этом ли «крошечном сверхразумном» ИИ пойдёт речь в загадочном устройстве от OpenAI, над которым команда работает последние месяцы?

📱 Миниатюрная железка, подключённая к облаку, которая не просто отвечает, а понимает, планирует и действует.
А сегодня o3-pro уже начинает появляться у некоторых пользователей.

Похоже, запуск пошёл — держитесь крепче.
Сегодня тот самый день.

@machinelearning_interview - мл карьера
Forwarded from Machinelearning
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker

Главное:
Модели на 0.6B, 4B и 8B параметров
Поддержка 119 языков
Sota на MMTEB, MTEB и MTEB-Code
Открытый код на Hugging Face, GitHub и ModelScope
Доступ через API на Alibaba Cloud

🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.

🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡Modelscope: https://modelscope.cn/organization/qwen

@ai_machinelearning_big_data

#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Google опенсорснул стек Deep Search.

Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.

Проект включает в себя все необходимое: и фронтенд, и бэкенд.

🟢Фронтенд на React и он про взаимодействие с пользователем (принимает запросы и отображает результаты.)

🟢Бэкенд, на LangGraph, управляет «мозгом» системы: здесь работает агент, который генерирует поисковые запросы, анализирует результаты и решает, нужно ли уточнять данные.

Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.

Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.

Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.

⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.


📌Лицензирование: Apache 2.0 License.


🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!

Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.

Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций


💡 Бонус для разработчиков:

Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!

🔥 Работает с Google Colab — бесплатно, быстро, удобно.

#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning

✔️ Подробнее

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 ShapeLLM-Omni — первая LLM, которая понимает форму, текст и 3D

ShapeLLM-Omni — это мультимодальная модель от JAMESYJL, способная обрабатывать не только текст и изображения, но и 3D-объекты, точки, сетки, CAD, и даже тактильные карты. Она объединяет визуальное, пространственное и языковое представление.

🚀 Что умеет:

🔤 Понимает текстовые запросы
📦 Анализирует 3D-модели, включая point clouds и mesh
Поддерживает тактильные данные (touch maps)
🧰 Универсальный encoder для всех типов данных
🤖 Основана на сильной Vision+LLM архитектуре
🧩 Поддерживает задачи: классификация, QA, описание 3D-сцен

🧪 Пример использования:
Модель может ответить на вопрос:
"Какой это инструмент?" — анализируя 3D-модель объекта.

📦 Форматы входа:
• Point cloud
• Mesh (.obj)
• Voxel
• Text prompt
• Touch (tactile image)

🔬 Для чего подходит:

• Робототехника
• AR/VR
• 3D-дизайн и CAD
• Мультимодальные агенты
• Образование и техподдержка по 3D-объектам

🔗 GitHub: github.com/JAMESYJL/ShapeLLM-Omni

💡 ShapeLLM-Omni — это новый шаг к универсальным LLM, которые понимают форму, а не только текст и пиксели.

@machinelearning_interview
🧠 Одна из лучших вещей, которую можно прочитать, чтобы понять PPO (Proximal Policy Optimization)

Как правильно реализовать PPO? 37 деталей, которые почти никто не указывает

Полезное чтиво Исследователи из ICLR собрали 37 практических нюансов, без которых реализация Proximal Policy Optimization (PPO) часто оказывается нестабильной или неэффективной.

🔧 В статье разобраны:
• 13 базовых деталей — без них PPO просто не будет работать стабильно
• 9 дополнительных при работе с изображениями (например, Atari)
• 9 нюансов для задач с непрерывным действием (робототехника и физика)
• 6 универсальных оптимизаций, улучшающих сходимость и результат

💡 Примеры включают:
– обработку rewards перед обучением
– правильное использование GAE
– нормализацию входных данных
– трюки с масштабированием advantages
– обработку градиентов и dropout

📌 Почему это важно:
Эти детали влияют на производительность и стабильность PPO, но почти всегда остаются "между строк" в статьях и туториалах. Без них модель может "учиться", но не достигать ожидаемых результатов.

🔗 Оригинальный разбор + код: https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/

#ReinforcementLearning #PPO #RL #DeepLearning #ICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Совсем скоро откроется подача документов на магистерские программы — приглашаем на презентацию магистратуры по ИИ от МТС и ФКН ВШЭ!

Самое важное:
- 30 оплачиваемых мест от МТС;
- Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
- В канале абитуриентов делимся новостями и помогаем с подготовкой к поступлению.

Презентация пройдет 19 июня в 18:00:

- Расскажем о программе и познакомим с преподавателями;
- Разберем, как устроен конкурс портфолио и как подготовиться к вступительным;
- Ответим на все вопросы.

А еще, если вы любите участвовать в соревнованиях на Kaggle — расскажем как получить бонус на этапе собеседования

Подробнее о программе и регистрация на встречу на сайте. Ждем каждого!
🚀 Ultimate Development Partner for Claude: Gemini MCP Server

🌟 Что это?
Это сервер Model Context Protocol (MCP), который соединяет Claude с Google Gemini 2.5 Pro, предоставляя:
1M токенов контекста — анализ целых репозиториев, сотен файлов.
Глубокую экспертизу — проверка кода, архитектуры, поиск багов.
Динамическую коллаборацию — Gemini запрашивает у Claude доп. контекст.

💡 Зачем это разработчикам?
Claude умён, но иногда нужен «старший разработчик» для:

Валидации идей (chat) → Второе мнение по архитектуре, технологиям.

Ревью кода (codereview) → Поиск уязвимостей, оптимизация.

Предкоммитной проверки (precommit) → Поиск edge-кейсов, соответствие ТЗ.

Сложного дебага (debug) → Анализ логов, root cause.

Глубокого анализа (analyze) → Исследование больших проектов

🚀 Преимущества
Обход лимитов MCP — автоматическая обработка больших промптов как файлов.
Умная работа с файлами — фильтрация, управление токенами.
Интеграция с Docker — 5 минут на запуск.

🔗 Репозиторий: github.com/BeehiveInnovations/gemini-mcp-server
2025/06/11 09:31:28
Back to Top
HTML Embed Code: