Telegram Group & Telegram Channel
Sapiens: A Family of Human-Centric Vision Models #pose_estimation #depth_estimation #paper

Статья (август 2024, ECCV 2024) от Meta представляет семейство моделей Sapiens для четырех основных задач компьютерного зрения, связанных с анализом людей: оценка позы человека (2D pose estimation), сегментация частей тела (body-part segmentation), оценка глубины (depth estimation) и предсказание нормалей поверхности (surface normal prediction).

В основе архитектуры лежит Vision Transformer, предобученный на специально собранном датасете Humans-300M, содержащем 300 миллионов изображений людей. Семейство включает четыре модели разного размера: от Sapiens-0.3B (336M параметров, 1.242T FLOPS) до Sapiens-2B (2.163B параметров, 8.709T FLOPS). Предобучение выполняется с помощью подхода masked autoencoder (MAE) на изображениях размером 1024x1024 с размером патча 16x16, при этом маскируется 75-95% патчей.

Для каждой из задач авторы используют специфичную архитектуру декодера. В задаче pose estimation применяется top-down подход, где сначала выполняется детекция человека, а затем оценка позы через предсказание heatmap с использованием Mean Squared Error loss. Модель работает с расширенным набором из 308 ключевых точек, включая 243 точки для лица и 40 для рук, на изображениях с аспектом 4:3 (1024x768). В задаче сегментации модель работает с 28 классами частей тела, используя Weighted Cross Entropy loss и легкий декодер с deconvolution слоями. Для depth estimation используется единый канал на выходе для регрессии с нормализацией глубины в диапазон [0,1] и специальным loss с учетом логарифмической разницы. В задаче normal estimation модель предсказывает xyz компоненты нормали через 3 выходных канала, используя комбинацию L1 loss и косинусной близости между предсказанными и ground truth нормалями.

Предобучение заняло 18 дней на 1024 GPU A100, а результаты превзошли SOTA во всех задачах: в pose estimation на 7.6 AP, в сегментации на 17.1 mIoU, в depth estimation на 22.4% RMSE и в normal estimation на 53.5%.

Ключевой вывод работы заключается в том, что специализированное предобучение на человеческих данных и использование высокого разрешения дают значительный прирост качества даже при использовании относительно простой архитектуры encoder-decoder. При этом модели демонстрируют хорошее обобщение на "дикие" данные, несмотря на обучение преимущественно на студийных и синтетических датасетах.

🔥Project
💻Github
📜Paper

@gentech_lab
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/gentech_lab/79
Create:
Last Update:

Sapiens: A Family of Human-Centric Vision Models #pose_estimation #depth_estimation #paper

Статья (август 2024, ECCV 2024) от Meta представляет семейство моделей Sapiens для четырех основных задач компьютерного зрения, связанных с анализом людей: оценка позы человека (2D pose estimation), сегментация частей тела (body-part segmentation), оценка глубины (depth estimation) и предсказание нормалей поверхности (surface normal prediction).

В основе архитектуры лежит Vision Transformer, предобученный на специально собранном датасете Humans-300M, содержащем 300 миллионов изображений людей. Семейство включает четыре модели разного размера: от Sapiens-0.3B (336M параметров, 1.242T FLOPS) до Sapiens-2B (2.163B параметров, 8.709T FLOPS). Предобучение выполняется с помощью подхода masked autoencoder (MAE) на изображениях размером 1024x1024 с размером патча 16x16, при этом маскируется 75-95% патчей.

Для каждой из задач авторы используют специфичную архитектуру декодера. В задаче pose estimation применяется top-down подход, где сначала выполняется детекция человека, а затем оценка позы через предсказание heatmap с использованием Mean Squared Error loss. Модель работает с расширенным набором из 308 ключевых точек, включая 243 точки для лица и 40 для рук, на изображениях с аспектом 4:3 (1024x768). В задаче сегментации модель работает с 28 классами частей тела, используя Weighted Cross Entropy loss и легкий декодер с deconvolution слоями. Для depth estimation используется единый канал на выходе для регрессии с нормализацией глубины в диапазон [0,1] и специальным loss с учетом логарифмической разницы. В задаче normal estimation модель предсказывает xyz компоненты нормали через 3 выходных канала, используя комбинацию L1 loss и косинусной близости между предсказанными и ground truth нормалями.

Предобучение заняло 18 дней на 1024 GPU A100, а результаты превзошли SOTA во всех задачах: в pose estimation на 7.6 AP, в сегментации на 17.1 mIoU, в depth estimation на 22.4% RMSE и в normal estimation на 53.5%.

Ключевой вывод работы заключается в том, что специализированное предобучение на человеческих данных и использование высокого разрешения дают значительный прирост качества даже при использовании относительно простой архитектуры encoder-decoder. При этом модели демонстрируют хорошее обобщение на "дикие" данные, несмотря на обучение преимущественно на студийных и синтетических датасетах.

🔥Project
💻Github
📜Paper

@gentech_lab

BY Gentech Lab




Share with your friend now:
group-telegram.com/gentech_lab/79

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel.
from in


Telegram Gentech Lab
FROM American