Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
Microsoft выпустили статью про визуальный ризонинг
Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.
А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:
Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт
Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.
Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.
То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT
"For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from nl