This media is not supported in your browser
VIEW IN TELEGRAM
Как сгенерировать миллиард демо-примеров для обучения роботов?
Проект Dex1B показывает, как это сделать просто — с помощью симуляции и генеративных моделей!
📌 Цель проекта: создать масштабный датасет для двух задач:
● Grasping — захват объектов🖐️
● Articulation — манипуляции с подвижными частями робота
Как это работает:
1. Создание Seed-датасета
Сначала используется оптимизационный алгоритм, чтобы вручную (или полуавтоматически) собрать небольшой, но точный набор демонстраций — так называемый *Seed Dataset*.
2. Обучение генеративной модели
На основе Seed-датасета обучается DexSimple— простая C-VAE модель (Conditional Variational Autoencoder). Она умеет порождать новые сцены, основываясь на контексте: тип объекта, поза руки, желаемое взаимодействие.
3. Масштабирование до 1 миллиарда
С помощью DexSimple создаются миллиарды новых демонстраций. При генерации учитывается разнообразие поз и объектов: используется преднамеренное «смешение» данных, чтобы не переобучаться на узком распределении.
4. Симуляция и проверка
Все демонстрации валидируются в физическом симуляторе ManiSkill/SAPIEN. Только успешные взаимодействия остаются в финальном наборе.
✔️ Что внутри:
- Grasping-сцены (1 млн штук): построены на базе ассетов из Objaverse
- Articulation-сцены: используют объекты из PartNet-Mobility — богатая коллекция с подвижными частями (двери, ящики, рычаги и т.п.)
- Каждая сцена содержит: 3D-модель объекта, позу руки, физику взаимодействия и результат
Почему это важно:
- Ручной сбор миллиардов примеров невозможен — здесь это решается генеративным путём
- Dex1B создаёт разнообразные и физически валидные примеры
- Это открывает путь к масштабному обучению роботов с использованием имитационного обучения
🟡 Сайт проекта: https://jianglongye.com/dex1b)
🟡 Статья : https://jianglongye.com/dex1b/static/dex1b.pdf
@ai_machinelearning_big_data
#ai #robots #ml
Проект Dex1B показывает, как это сделать просто — с помощью симуляции и генеративных моделей!
● Grasping — захват объектов
● Articulation — манипуляции с подвижными частями робота
Как это работает:
1. Создание Seed-датасета
Сначала используется оптимизационный алгоритм, чтобы вручную (или полуавтоматически) собрать небольшой, но точный набор демонстраций — так называемый *Seed Dataset*.
2. Обучение генеративной модели
На основе Seed-датасета обучается DexSimple— простая C-VAE модель (Conditional Variational Autoencoder). Она умеет порождать новые сцены, основываясь на контексте: тип объекта, поза руки, желаемое взаимодействие.
3. Масштабирование до 1 миллиарда
С помощью DexSimple создаются миллиарды новых демонстраций. При генерации учитывается разнообразие поз и объектов: используется преднамеренное «смешение» данных, чтобы не переобучаться на узком распределении.
4. Симуляция и проверка
Все демонстрации валидируются в физическом симуляторе ManiSkill/SAPIEN. Только успешные взаимодействия остаются в финальном наборе.
- Grasping-сцены (1 млн штук): построены на базе ассетов из Objaverse
- Articulation-сцены: используют объекты из PartNet-Mobility — богатая коллекция с подвижными частями (двери, ящики, рычаги и т.п.)
- Каждая сцена содержит: 3D-модель объекта, позу руки, физику взаимодействия и результат
Почему это важно:
- Ручной сбор миллиардов примеров невозможен — здесь это решается генеративным путём
- Dex1B создаёт разнообразные и физически валидные примеры
- Это открывает путь к масштабному обучению роботов с использованием имитационного обучения
@ai_machinelearning_big_data
#ai #robots #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
• Генерирует видео с несколькими говорящими персонажами по аудио
• Поддерживает видео до 15 секунд в 480p и 720p
• Управление персонажами через текстовые промпты
• Поддержка генерации мультяшных героев, пения, нестандартных стилей речи
• Доступно в ComfyUI
Модель принимает на вход многопотоковое аудио, референсное изображение и текстовый промпт, после чего генерирует видео с взаимодействиями между персонажами, следуя промпту и с точной синхронизацией губ с речью.
▪Github: https://github.com/MeiGen-AI/MultiTalk
▪HF: https://huggingface.co/MeiGen-AI/MeiGen-MultiTalk
@ai_machinelearning_big_data
#wan #ai #ml #lipsync #MultiTalk
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Хотите внедрить AI на основе LLM в свой проект или сервис, но не знаете, как это сделать?
✅ Пройдите тестирование на новый курс от Otus - LLM Driven Development
Курс охватывает полный цикл разработки и внедрения больших языковых моделей — от основ архитектуры AI и подготовки данных до тонкостей MLOps, мониторинга и оптимизации.
Сфокусируйтесь на прикладных знаниях архитектуры LLM и их интеграции с современными фреймворками, такими как LangChain и LlamaIndex, обеспечивая практическое применение через проектную работу и домашние задания.
🎁 Только до 30 июня — скидка 10% при полной оплате курса.
🔗 Пройдите тестирование чтобы зафиксировать условия
https://tglink.io/6ad98edfc947?erid=2W5zFGWEjyr
#реклама
О рекламодателе
✅ Пройдите тестирование на новый курс от Otus - LLM Driven Development
Курс охватывает полный цикл разработки и внедрения больших языковых моделей — от основ архитектуры AI и подготовки данных до тонкостей MLOps, мониторинга и оптимизации.
Сфокусируйтесь на прикладных знаниях архитектуры LLM и их интеграции с современными фреймворками, такими как LangChain и LlamaIndex, обеспечивая практическое применение через проектную работу и домашние задания.
🎁 Только до 30 июня — скидка 10% при полной оплате курса.
🔗 Пройдите тестирование чтобы зафиксировать условия
https://tglink.io/6ad98edfc947?erid=2W5zFGWEjyr
#реклама
О рекламодателе
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM