Telegram Group & Telegram Channel
Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/5933
Create:
Last Update:

Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут

BY Data Secrets








Share with your friend now:
group-telegram.com/data_secrets/5933

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. For tech stocks, “the main thing is yields,” Essaye said. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media.
from cn


Telegram Data Secrets
FROM American