Telegram Group & Telegram Channel
Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/5933
Create:
Last Update:

Google второй раз за неделю радует отличной статьей: они представляют Inference-Time Scaling для диффузии

В LLM в этом году test-time скейлинг (aka ризонинг) произвел настоящий фурор: оказалось, что так можно масштабировать модели даже когда они выходят на плато по train-time масштабированию (то есть по вычислениям и количеству данных, затраченным для обучения). Так почему бы не применить ту же идеи к генеративкам?

Вообще, диффузия сама по себе уже предполагает test-time скейлинг за счет количества шагов шумоподавления. С другой стороны, это сложно назвать скейлингом, потому что после некоторого шага диффузии уже ничего не масштабируется, и качество выходит на плато.

Поэтому Google решили провести исследование и выяснить, насколько возможен в диффузии test-time скейлинг другого рода: не за счет шагов шумоподавления, а за счет поиска лучшего шума (это, кстати, больше напоминает схему o1 с поиском лучшего решения). В частности, исследователи пытались увеличить test-time компьют для верификатора и для алгоритмов отбора лучших кандидатов для шума.

🟦 Верификаторы – это модули, которые оценивают качество сгенерированного. В этом случае используются CLIP для текстовой релевантности, Aesthetic Score для эстетики и ImageReward для комплексных предпочтений.
🟦 Алгоритмы поиска нужны для подборки такого шума, из которого при расшумлении получится лучший вариант кадра. Это может быть простой Random Search по множеству шумов, итеративный поиск вокруг начального шума Zero-Order Search или Search over Paths – поиск на промежуточных этапах траектории диффузии.

Итог: с помощю такого масштабирования удалось добиться улучшений на бенчмарках, то есть оно работает! На DrawBench общие баллы увеличились на 10–15%, особенно по креативности и текстовой релевантности. При этом итераций шумоподавления может понадобиться даже меньше, чем в исходном варианте.

Это очень круто. Кто бы мог подумать, что за такое короткое время test-time скейлинг доберется и сюда.

Текст статьи полностью тут

BY Data Secrets








Share with your friend now:
group-telegram.com/data_secrets/5933

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. False news often spreads via public groups, or chats, with potentially fatal effects. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981.
from es


Telegram Data Secrets
FROM American