group-telegram.com/data_secrets/6124
Last Update:
Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Выхлоп: текстовый вывод + итоговая схема мысленного "маршрута"
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Прямо день крутых статей сегодня arxiv.org/pdf/2501.07542
BY Data Secrets
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/gBEdnHaDrj3xeDa8EE--H5Pt0wesShvrFy3yHU_J1KUPvpiEbf3WOYy6mEHjQCSYZ6jg8TNmbL5wpHMQYx8BvWMq-fZ3djvX52p3dl7LzR9VOHzWxr65vNn_n-QK1g25W5SAmGT95iqs55S3QTC_GQvCqBBHVxqqyiw0QxtKX1fRjpJh6RZpPsR_oq3yiqw44u2weydMQUA5GTfvJvZ_ZvnvlRZjpmtsMLECP-ZlrMJz1qT3MdQ1U1jZ9r4ubjl8Jbi_avzhLovPXr-iUf2jzSDbwCBDMvuwVQMhXxmvzLmyELovDn19sykxH0EpcdNIqPFvE34GkdNY-auCY1UJgA.jpg)
Share with your friend now:
group-telegram.com/data_secrets/6124