Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from ca