Telegram Group & Telegram Channel
Sapiens: A Family of Human-Centric Vision Models #pose_estimation #depth_estimation #paper

Статья (август 2024, ECCV 2024) от Meta представляет семейство моделей Sapiens для четырех основных задач компьютерного зрения, связанных с анализом людей: оценка позы человека (2D pose estimation), сегментация частей тела (body-part segmentation), оценка глубины (depth estimation) и предсказание нормалей поверхности (surface normal prediction).

В основе архитектуры лежит Vision Transformer, предобученный на специально собранном датасете Humans-300M, содержащем 300 миллионов изображений людей. Семейство включает четыре модели разного размера: от Sapiens-0.3B (336M параметров, 1.242T FLOPS) до Sapiens-2B (2.163B параметров, 8.709T FLOPS). Предобучение выполняется с помощью подхода masked autoencoder (MAE) на изображениях размером 1024x1024 с размером патча 16x16, при этом маскируется 75-95% патчей.

Для каждой из задач авторы используют специфичную архитектуру декодера. В задаче pose estimation применяется top-down подход, где сначала выполняется детекция человека, а затем оценка позы через предсказание heatmap с использованием Mean Squared Error loss. Модель работает с расширенным набором из 308 ключевых точек, включая 243 точки для лица и 40 для рук, на изображениях с аспектом 4:3 (1024x768). В задаче сегментации модель работает с 28 классами частей тела, используя Weighted Cross Entropy loss и легкий декодер с deconvolution слоями. Для depth estimation используется единый канал на выходе для регрессии с нормализацией глубины в диапазон [0,1] и специальным loss с учетом логарифмической разницы. В задаче normal estimation модель предсказывает xyz компоненты нормали через 3 выходных канала, используя комбинацию L1 loss и косинусной близости между предсказанными и ground truth нормалями.

Предобучение заняло 18 дней на 1024 GPU A100, а результаты превзошли SOTA во всех задачах: в pose estimation на 7.6 AP, в сегментации на 17.1 mIoU, в depth estimation на 22.4% RMSE и в normal estimation на 53.5%.

Ключевой вывод работы заключается в том, что специализированное предобучение на человеческих данных и использование высокого разрешения дают значительный прирост качества даже при использовании относительно простой архитектуры encoder-decoder. При этом модели демонстрируют хорошее обобщение на "дикие" данные, несмотря на обучение преимущественно на студийных и синтетических датасетах.

🔥Project
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/82
Create:
Last Update:

Sapiens: A Family of Human-Centric Vision Models #pose_estimation #depth_estimation #paper

Статья (август 2024, ECCV 2024) от Meta представляет семейство моделей Sapiens для четырех основных задач компьютерного зрения, связанных с анализом людей: оценка позы человека (2D pose estimation), сегментация частей тела (body-part segmentation), оценка глубины (depth estimation) и предсказание нормалей поверхности (surface normal prediction).

В основе архитектуры лежит Vision Transformer, предобученный на специально собранном датасете Humans-300M, содержащем 300 миллионов изображений людей. Семейство включает четыре модели разного размера: от Sapiens-0.3B (336M параметров, 1.242T FLOPS) до Sapiens-2B (2.163B параметров, 8.709T FLOPS). Предобучение выполняется с помощью подхода masked autoencoder (MAE) на изображениях размером 1024x1024 с размером патча 16x16, при этом маскируется 75-95% патчей.

Для каждой из задач авторы используют специфичную архитектуру декодера. В задаче pose estimation применяется top-down подход, где сначала выполняется детекция человека, а затем оценка позы через предсказание heatmap с использованием Mean Squared Error loss. Модель работает с расширенным набором из 308 ключевых точек, включая 243 точки для лица и 40 для рук, на изображениях с аспектом 4:3 (1024x768). В задаче сегментации модель работает с 28 классами частей тела, используя Weighted Cross Entropy loss и легкий декодер с deconvolution слоями. Для depth estimation используется единый канал на выходе для регрессии с нормализацией глубины в диапазон [0,1] и специальным loss с учетом логарифмической разницы. В задаче normal estimation модель предсказывает xyz компоненты нормали через 3 выходных канала, используя комбинацию L1 loss и косинусной близости между предсказанными и ground truth нормалями.

Предобучение заняло 18 дней на 1024 GPU A100, а результаты превзошли SOTA во всех задачах: в pose estimation на 7.6 AP, в сегментации на 17.1 mIoU, в depth estimation на 22.4% RMSE и в normal estimation на 53.5%.

Ключевой вывод работы заключается в том, что специализированное предобучение на человеческих данных и использование высокого разрешения дают значительный прирост качества даже при использовании относительно простой архитектуры encoder-decoder. При этом модели демонстрируют хорошее обобщение на "дикие" данные, несмотря на обучение преимущественно на студийных и синтетических датасетах.

🔥Project
💻Github
📜Paper

@gentech_lab

BY Gentech Lab




Share with your friend now:
group-telegram.com/gentech_lab/82

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The gold standard of encryption, known as end-to-end encryption, where only the sender and person who receives the message are able to see it, is available on Telegram only when the Secret Chat function is enabled. Voice and video calls are also completely encrypted. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from ye


Telegram Gentech Lab
FROM American