group-telegram.com/data_secrets/6124
Last Update:
Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Выхлоп: текстовый вывод + итоговая схема мысленного "маршрута"
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Прямо день крутых статей сегодня arxiv.org/pdf/2501.07542
BY Data Secrets
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/i4PiylKRdxoDfeC9B0Rrp6jP3JuJv4XAoZBTYN_4FG9FN9yLGVSYbvczmF2pLG75FozkQW9nHQX0Prt41YKXS6IHPMJWtyijs9wjmz7i0N5ncd2uhBqFWtwS6YZlGChwdAepRqpmXUVCFc84XXlcZe4OsyNaJ8DrFDxOGH-GLD6uYYQ8rfiJTVfAKFs9hicEGDejbs2tH8yzRPtA3llaWhwL4I4ofBXoBZ2gyVy1L3E6JxHpphqCNVeWG_lGFZLfWtd1y6AcvzlbZ4mCKGQwFNxOBARS_0C3XopIOrHVLaXtj0-wTM9A2Nzcgk3DfPCoOOzfs9TO7nfayduOekngJw.jpg)
Share with your friend now:
group-telegram.com/data_secrets/6124