group-telegram.com/ai_newz/3170
Last Update:
VGGHeads: Восстанавливаем 3D головы на групповых фото
В догонку к недавнему посту про OccluFaceDiff, где мы со студенткой восстанавливали 3D-шейп лица по видео или аудио, даже если в какой-то момент оно закрыто, спешу поведать про VGGHeads. Ребята научились собирать меш сразу для нескольких голов по одному фото. Казалось бы, а что, фильтры в Instagram так не умеют? А вот нет! Потому что задетектить столько лиц сразу — довольно сложная задача, а здесь это ещё и делается в один шаг. Архитектура модели ню построена на базе YOLO-NAS. Не реалтайм, конечно, но очень к этому близко.
Ещё из интересного то, что для тренировки использовался полностью синтетический датасет. Картинки генерили на основе референсных, используя диффузию и 2D Pose controlnet. Всего так нагенерили 1M картинок с 2M+ головами, из которых 10 000 зааннотировали вручную (правда, только вот этой красной рамкой см. картинку, но и на это ушло 56 часов).
Примечательно, что человеку необязательно смотреть прямо в кадр — лицо детектится и в профиль. Выше пример с недавней сходки в Варшаве.
Project page
Пейпер
Код
Демо
Датасет (скоро)
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/b5HiI_muOFpYelVDuoVATuNEDugJ-sf8nhu2vGdW1h-rTYALq3Pi0n1jwdYjAXHRk9pMM7SPoMy1v0HkFOrkmmgb0erZIqZyRGYZk6aTYQGDmZyhHOMsAI71AzFxE22D-iiCOZ0x2V0wsEXMjCaalcLjAovEyG2WEVJ7AnVj0d8rw8wn1cBtoO9K1ybdBuJjR9oqBcjL-Pf5finYhSUo8FrkHicm2ZkSO0FrGn2Z8Nyuf7SjSZE7wPc320sMQvt_7LvyjeMztfScoPQblbJ6sD-Tymo3hH_5FdfY7FKFpktka2fdBRLGcqedoaC74XKW7me-puJc0eL8PfroetvAJg.jpg)
Share with your friend now:
group-telegram.com/ai_newz/3170