group-telegram.com/datastorieslanguages/354
Last Update:
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution
Интересная статья от TikTok, то есть от ByteDance - улучшение подходов super-resolution для видео. Года 4 назад у меня был рабочий проект на эту тему, так что было интересно посмотреть на прогресс.
Предложенная модель состоит из четырёх частей: VAE, текстовый энкодер, ControlNet, и T2V модель. В T2V добавили новый модуль - Local Information Enhancement Module, чтобы уменьшить количество артефактов, дополнительно придумали Dynamic Frequency лосс, чтобы модель меньше выдумывала лишнее. Получили хорошие результаты на куче бенчмарков. Из примеров меня особенно впечатлило улучшение качества совсем расплывчатого текста.
Paper
Project
Code
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
BY Data, Stories and Languages
Share with your friend now:
group-telegram.com/datastorieslanguages/354