Notice: file_put_contents(): Write of 9604 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1527 -
Telegram Group & Telegram Channel
И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.



group-telegram.com/seeallochnaya/1527
Create:
Last Update:

И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1527

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from it


Telegram Сиолошная
FROM American