Notice: file_put_contents(): Write of 1413 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 9605 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1527 -
Telegram Group & Telegram Channel
И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.



group-telegram.com/seeallochnaya/1527
Create:
Last Update:

И отдельный пост про то, почему LLM плохо решают такую задачу.

Моё субъективное мнение — потому, что все эти задачи переводят в текст, убирая визуальную составляющую, и подают модели. Я не смог найти нормальных замеров омнимодальных моделей (не мультимодальных, где изображения прицепили как будто сбоку: важно, чтобы для LM-ки картинки были нативными): Gemini-1.5-Pro, GPT-4o.

И люди, решая ARC-подобные задачи, на самом деле проявляют те же самые запомненные паттерны, которые они видят везде, от ковров до экранов телефонов. Визуальная составляющая тут безумно важна, но всё, что подают модели — это [[0, 0, 1, 0, 1, 1], [0, 1, 0..]] — люди сами так не решат. Нужно именно пространственное понимание и возможность связать несколько примеров между собой.

Если я правильно понял Francois (тут могу ошибаться, последнюю часть интервью мотал уже), то он не ждёт, что следующее поколение моделей существенно продвинется. За 4 года бенчмарк показал, что прогресса почти нет — ну так чего ему начинаться? Моё же мнение противоположное — может, GPT-5 не дойдет до показателя 80-85% человека, но прирастёт существенно: за счёт омнимодальности и за счёт масштабирования и потенциально новой архитектуры -> большего количества ресурсов на решение задачи. Надеюсь, OpenAI/Google DeepMind/Anthropic заприметили соревнование, и в пресс-релиз фронтир-моделей обязательно включат отчёт по метрикам.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1527

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from no


Telegram Сиолошная
FROM American