Telegram Group & Telegram Channel
Ученые из Google и Кэмбриджа предложили вид модели, которая мыслит образами, а не текстом

Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.

Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:

1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.

2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.

Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.

Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.

Вот бы с какой-нибудь сложной геометрией такое потестили

huggingface.co/papers/2505.11409



group-telegram.com/data_secrets/6931
Create:
Last Update:

Ученые из Google и Кэмбриджа предложили вид модели, которая мыслит образами, а не текстом

Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.

Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:

1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.

2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.

Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.

Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.

Вот бы с какой-нибудь сложной геометрией такое потестили

huggingface.co/papers/2505.11409

BY Data Secrets






Share with your friend now:
group-telegram.com/data_secrets/6931

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from us


Telegram Data Secrets
FROM American