group-telegram.com/ai_newz/2324
Last Update:
Мои кореша из Stability AI зарелизили новый метод дистилляции для SDXL.
Показывают, что из дистиллированной SD-XL (ADD-XL) теперь можно семплить за 4 шага без существенной потери в качестве.
Судя по метрикам - это новая сота. Может работать и за один шаг семплера, но тогда генерирует меньше деталей и картинка выходит чуть более замыленная.
Это гибрид GAN-а и диффузии.
Тренировка основана на классическом методе дистилляции, но с дискриминатором! Когда число шагов снижается до одного, дискриминатор сильно добрасывает, ведь он не позволяет генерить полную кашу (это было уже показано в нескольких статьях в этом году).
1. Студент и учитель инициализируется весами SD-XL. Далее между предиктами студента и учителя накладывается L2 лосс. Любопытно, что учитель делает только 1 шаг, но начинает с зашумленного предикта студента, а не из случайного шума.
2. В качестве дискриминатора берутся фичи из ViT-S, натренированного в self-supervised режиме с помощью DINOv2. Затем эти фичи подают в тренируемую голову, которая выдает "Real" или "Fake". Тут важно именно брать сильный претренированный энкодер фичей, типа DINOv2.
Картиночки выглядят хорошо, но ниже 4х шагов - уже не то пальто.
Тренировочный код не выложили, и, кажется, его ждать не стоит.
Статья
Код и веса
Демо на ClipDrop (1 шаг)
@ai_newz