group-telegram.com/ai_newz/3170
Last Update:
VGGHeads: Восстанавливаем 3D головы на групповых фото
В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко.
Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов).
Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве.
Project page
Пейпер
Код
Демо
Датасет (скоро)
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/RxbGaLF-qmAG867KhMvZVr31DP5DIi2HVwDJZpPzn2TNzzfqrqQyUYrOdDuq-GnvAyXphLy8xIqRzvSIWA0Z4EecKbzQR5MFTW53mA7B8ftEb6FTC5YpfQUC1tKniZb8M1kCokuPU-ebMCOEG-2_jYQ4j4h3aw1x-3L_mWr114U1rJRuWO21KfzotFEBx20vsTa3kvpmhe1BHteUn-u-C1zahmnuLOtRuoawdd6M6Vj3dxOHEdKgHE0QK9MVpHWUkXkugqNL9M7CEurs264CkJZBqZQjSeBbtvdkHdaKnGiARrD0yAG2VqoEDAJrr5QPeXAw1VxkI3Il9fbq3snVZg.jpg)
Share with your friend now:
group-telegram.com/ai_newz/3170