Notice: file_put_contents(): Write of 1412 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 9604 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1527 -
Telegram Group & Telegram Channel
И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.



group-telegram.com/seeallochnaya/1527
Create:
Last Update:

И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1527

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from nl


Telegram Сиолошная
FROM American