Telegram Group & Telegram Channel
И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.



group-telegram.com/seeallochnaya/1527
Create:
Last Update:

И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1527

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said.
from ye


Telegram Сиолошная
FROM American