Telegram Group & Telegram Channel
Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/5933
Create:
Last Update:

Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут

BY Data Secrets








Share with your friend now:
group-telegram.com/data_secrets/5933

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from br


Telegram Data Secrets
FROM American