Telegram Group & Telegram Channel
Sapiens: A Family of Human-Centric Vision Models #pose_estimation #depth_estimation #paper

Статья (август 2024, ECCV 2024) от Meta представляет семейство моделей Sapiens для четырех основных задач компьютерного зрения, связанных с анализом людей: оценка позы человека (2D pose estimation), сегментация частей тела (body-part segmentation), оценка глубины (depth estimation) и предсказание нормалей поверхности (surface normal prediction).

В основе архитектуры лежит Vision Transformer, предобученный на специально собранном датасете Humans-300M, содержащем 300 миллионов изображений людей. Семейство включает четыре модели разного размера: от Sapiens-0.3B (336M параметров, 1.242T FLOPS) до Sapiens-2B (2.163B параметров, 8.709T FLOPS). Предобучение выполняется с помощью подхода masked autoencoder (MAE) на изображениях размером 1024x1024 с размером патча 16x16, при этом маскируется 75-95% патчей.

Для каждой из задач авторы используют специфичную архитектуру декодера. В задаче pose estimation применяется top-down подход, где сначала выполняется детекция человека, а затем оценка позы через предсказание heatmap с использованием Mean Squared Error loss. Модель работает с расширенным набором из 308 ключевых точек, включая 243 точки для лица и 40 для рук, на изображениях с аспектом 4:3 (1024x768). В задаче сегментации модель работает с 28 классами частей тела, используя Weighted Cross Entropy loss и легкий декодер с deconvolution слоями. Для depth estimation используется единый канал на выходе для регрессии с нормализацией глубины в диапазон [0,1] и специальным loss с учетом логарифмической разницы. В задаче normal estimation модель предсказывает xyz компоненты нормали через 3 выходных канала, используя комбинацию L1 loss и косинусной близости между предсказанными и ground truth нормалями.

Предобучение заняло 18 дней на 1024 GPU A100, а результаты превзошли SOTA во всех задачах: в pose estimation на 7.6 AP, в сегментации на 17.1 mIoU, в depth estimation на 22.4% RMSE и в normal estimation на 53.5%.

Ключевой вывод работы заключается в том, что специализированное предобучение на человеческих данных и использование высокого разрешения дают значительный прирост качества даже при использовании относительно простой архитектуры encoder-decoder. При этом модели демонстрируют хорошее обобщение на "дикие" данные, несмотря на обучение преимущественно на студийных и синтетических датасетах.

🔥Project
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/79
Create:
Last Update:

Sapiens: A Family of Human-Centric Vision Models #pose_estimation #depth_estimation #paper

Статья (август 2024, ECCV 2024) от Meta представляет семейство моделей Sapiens для четырех основных задач компьютерного зрения, связанных с анализом людей: оценка позы человека (2D pose estimation), сегментация частей тела (body-part segmentation), оценка глубины (depth estimation) и предсказание нормалей поверхности (surface normal prediction).

В основе архитектуры лежит Vision Transformer, предобученный на специально собранном датасете Humans-300M, содержащем 300 миллионов изображений людей. Семейство включает четыре модели разного размера: от Sapiens-0.3B (336M параметров, 1.242T FLOPS) до Sapiens-2B (2.163B параметров, 8.709T FLOPS). Предобучение выполняется с помощью подхода masked autoencoder (MAE) на изображениях размером 1024x1024 с размером патча 16x16, при этом маскируется 75-95% патчей.

Для каждой из задач авторы используют специфичную архитектуру декодера. В задаче pose estimation применяется top-down подход, где сначала выполняется детекция человека, а затем оценка позы через предсказание heatmap с использованием Mean Squared Error loss. Модель работает с расширенным набором из 308 ключевых точек, включая 243 точки для лица и 40 для рук, на изображениях с аспектом 4:3 (1024x768). В задаче сегментации модель работает с 28 классами частей тела, используя Weighted Cross Entropy loss и легкий декодер с deconvolution слоями. Для depth estimation используется единый канал на выходе для регрессии с нормализацией глубины в диапазон [0,1] и специальным loss с учетом логарифмической разницы. В задаче normal estimation модель предсказывает xyz компоненты нормали через 3 выходных канала, используя комбинацию L1 loss и косинусной близости между предсказанными и ground truth нормалями.

Предобучение заняло 18 дней на 1024 GPU A100, а результаты превзошли SOTA во всех задачах: в pose estimation на 7.6 AP, в сегментации на 17.1 mIoU, в depth estimation на 22.4% RMSE и в normal estimation на 53.5%.

Ключевой вывод работы заключается в том, что специализированное предобучение на человеческих данных и использование высокого разрешения дают значительный прирост качества даже при использовании относительно простой архитектуры encoder-decoder. При этом модели демонстрируют хорошее обобщение на "дикие" данные, несмотря на обучение преимущественно на студийных и синтетических датасетах.

🔥Project
💻Github
📜Paper

@gentech_lab

BY Gentech Lab




Share with your friend now:
group-telegram.com/gentech_lab/79

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones.
from no


Telegram Gentech Lab
FROM American