🔥Adversarial Diffusion Distillation или SDXL-Turbo
Мои кореша из Stability AI зарелизили новый метод дистилляции для SDXL.
Показывают, что из дистиллированной SD-XL (ADD-XL) теперь можно семплить за 4 шага без существенной потери в качестве.
Судя по метрикам - это новая сота. Может работать и за один шаг семплера, но тогда генерирует меньше деталей и картинка выходит чуть более замыленная.
❓Как это работает? Это гибрид GAN-а и диффузии. Тренировка основана на классическом методе дистилляции, но с дискриминатором! Когда число шагов снижается до одного, дискриминатор сильно добрасывает, ведь он не позволяет генерить полную кашу (это было уже показано в нескольких статьях в этом году).
1. Студент и учитель инициализируется весами SD-XL. Далее между предиктами студента и учителя накладывается L2 лосс. Любопытно, что учитель делает только 1 шаг, но начинает с зашумленного предикта студента, а не из случайного шума.
2. В качестве дискриминатора берутся фичи из ViT-S, натренированного в self-supervised режиме с помощью DINOv2. Затем эти фичи подают в тренируемую голову, которая выдает "Real" или "Fake". Тут важно именно брать сильный претренированный энкодер фичей, типа DINOv2.
Картиночки выглядят хорошо, но ниже 4х шагов - уже не то пальто.
Тренировочный код не выложили, и, кажется, его ждать не стоит.
🔥Adversarial Diffusion Distillation или SDXL-Turbo
Мои кореша из Stability AI зарелизили новый метод дистилляции для SDXL.
Показывают, что из дистиллированной SD-XL (ADD-XL) теперь можно семплить за 4 шага без существенной потери в качестве.
Судя по метрикам - это новая сота. Может работать и за один шаг семплера, но тогда генерирует меньше деталей и картинка выходит чуть более замыленная.
❓Как это работает? Это гибрид GAN-а и диффузии. Тренировка основана на классическом методе дистилляции, но с дискриминатором! Когда число шагов снижается до одного, дискриминатор сильно добрасывает, ведь он не позволяет генерить полную кашу (это было уже показано в нескольких статьях в этом году).
1. Студент и учитель инициализируется весами SD-XL. Далее между предиктами студента и учителя накладывается L2 лосс. Любопытно, что учитель делает только 1 шаг, но начинает с зашумленного предикта студента, а не из случайного шума.
2. В качестве дискриминатора берутся фичи из ViT-S, натренированного в self-supervised режиме с помощью DINOv2. Затем эти фичи подают в тренируемую голову, которая выдает "Real" или "Fake". Тут важно именно брать сильный претренированный энкодер фичей, типа DINOv2.
Картиночки выглядят хорошо, но ниже 4х шагов - уже не то пальто.
Тренировочный код не выложили, и, кажется, его ждать не стоит.
In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said.
from us