Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from ru