Notice: file_put_contents(): Write of 2089 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 14377 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1555 -
Telegram Group & Telegram Channel
Помните вот эту ситуацию? Когда человек утверждал, что LLM не могут решить какую-то задачу, утвердил приз $10'000, и через два дня расстался с деньгами? Я ещё в комментариях шутил, что если хотите на серьёзных щах что-то утверждать про ограничения систем — надо готовиться выкладывать деньги, ибо иначе людям, которые реально могут доказать, что вы не правы, просто не интересно.

А помните я на прошлой неделе писал про бенчмарк ARC от Francois Chollet? Якобы что это визуальная загадка, где нужно уметь на лету идентифицировать новые паттерны, и что текущие LLM в этом вообще не разбираются, и выдают <10% качества?

Как написали в одном из чатов (автор @senior_augur):
— Я думаю ARC никто долго не побивал, потому что он никому нахер не нужен был

На интервью Francois говорил, мол, вот LLM не умеют рассуждать и обобщаться, бенчмарку 4 года, а воз и ныне там стоит. И утвердил конкурс (ну и получил освещение в подкасте) на $1M (правда там пока только $500k доступно, и то со звёздочками, что фронтир-модели, лучшие из лучших, под критерии не попадают).

Прошло 6 дней. Воздуха набрали? Готовы? 😏
Знакомый подкастера из Redwood Research написал пост, где показывает, насколько высоки метрики GPT-4. На тренировочной выборке (публично доступной) качество 71% на 100 отложенных автором задачах, в которые он не подглядывал. Качество человека в среднем 85%. Кажется, что разрыв большой, но напомню, что основной тезис разработчика бенчмарка был «ну так LLM и 10% не решают!». На приватной выборке качество 51%, но не удивляйтесь — она сама по себе сложнее (и для неё неизвестен показатель человека, в смысле его просто не померили). До этого лучший метод давал 34% и не опирался на LLM.

Осталось дождаться, что Francois со своими друзьями возьмут метод и запустят на самом ультра-приватном датасете, который ещё никто не видел (специально для соревнований сделали), увидели там 50%+- и сидели вот так: 😅 , переосмысливали своё представления об «ограничениях дип лернинга».

Но вам наверное интересно, как работает решение? Примерно так:
— GPT-4o на каждую задачу генерирует примерно 5000 программ на питоне, которые потенциально могут быть решением
— программы фильтруются по их способности повторить 3 примера, которые всегда даются (по условиям задачи, именно по ним нужно установить зависимость и дать ответ)
— топ-программы, дающие максимально похожий результат (если нет правильных) отдаются на правку GPT-4o, типа «вот как нужно, вот как ты сделала, исправляй эту хрень». Тут генерируется ещё 3000 программ (итого 8000)
— выбирается финальный кандидат для решения.

Для того, чтобы это работало хорошо, нужно немного поиграться с входными представлениями (так как, как я и говорил, модель не очень хорошо «видит» картинку, совсем не так, как мы), используя ASCII и написать несколько примеров рассуждений. Обычно в промпт входит примерно 30'000 токенов — если добавлять больше, то модель начинает работать хуже после 32'000 по естественным причинам (это давно замечено).

Автор описал несколько итераций улучшений промпта, но самое главное, как я понял — это подать несколько представлений на вход для одной и той же задачи, просто потому, что GPT не видит так же, как это делает человек. «GPT-4o’s vision is terrible on grids» (потому что все задачи на клеточках). Ей нужно хорошо приготовить текст, разделить всё символами (типа 0 | 3 | 1 | 2, цифры обозначают разные цвета).

И второе — GPT-4o плохо кодит и часто ошибается на +-1 по клеточкам. Обе проблемы решаются с развитием моделей, так что ждём к концу года новых прорывов (хотя кому теперь интересно будет садиться за задачу?).
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1555
Create:
Last Update:

Помните вот эту ситуацию? Когда человек утверждал, что LLM не могут решить какую-то задачу, утвердил приз $10'000, и через два дня расстался с деньгами? Я ещё в комментариях шутил, что если хотите на серьёзных щах что-то утверждать про ограничения систем — надо готовиться выкладывать деньги, ибо иначе людям, которые реально могут доказать, что вы не правы, просто не интересно.

А помните я на прошлой неделе писал про бенчмарк ARC от Francois Chollet? Якобы что это визуальная загадка, где нужно уметь на лету идентифицировать новые паттерны, и что текущие LLM в этом вообще не разбираются, и выдают <10% качества?

Как написали в одном из чатов (автор @senior_augur):
— Я думаю ARC никто долго не побивал, потому что он никому нахер не нужен был

На интервью Francois говорил, мол, вот LLM не умеют рассуждать и обобщаться, бенчмарку 4 года, а воз и ныне там стоит. И утвердил конкурс (ну и получил освещение в подкасте) на $1M (правда там пока только $500k доступно, и то со звёздочками, что фронтир-модели, лучшие из лучших, под критерии не попадают).

Прошло 6 дней. Воздуха набрали? Готовы? 😏
Знакомый подкастера из Redwood Research написал пост, где показывает, насколько высоки метрики GPT-4. На тренировочной выборке (публично доступной) качество 71% на 100 отложенных автором задачах, в которые он не подглядывал. Качество человека в среднем 85%. Кажется, что разрыв большой, но напомню, что основной тезис разработчика бенчмарка был «ну так LLM и 10% не решают!». На приватной выборке качество 51%, но не удивляйтесь — она сама по себе сложнее (и для неё неизвестен показатель человека, в смысле его просто не померили). До этого лучший метод давал 34% и не опирался на LLM.

Осталось дождаться, что Francois со своими друзьями возьмут метод и запустят на самом ультра-приватном датасете, который ещё никто не видел (специально для соревнований сделали), увидели там 50%+- и сидели вот так: 😅 , переосмысливали своё представления об «ограничениях дип лернинга».

Но вам наверное интересно, как работает решение? Примерно так:
— GPT-4o на каждую задачу генерирует примерно 5000 программ на питоне, которые потенциально могут быть решением
— программы фильтруются по их способности повторить 3 примера, которые всегда даются (по условиям задачи, именно по ним нужно установить зависимость и дать ответ)
— топ-программы, дающие максимально похожий результат (если нет правильных) отдаются на правку GPT-4o, типа «вот как нужно, вот как ты сделала, исправляй эту хрень». Тут генерируется ещё 3000 программ (итого 8000)
— выбирается финальный кандидат для решения.

Для того, чтобы это работало хорошо, нужно немного поиграться с входными представлениями (так как, как я и говорил, модель не очень хорошо «видит» картинку, совсем не так, как мы), используя ASCII и написать несколько примеров рассуждений. Обычно в промпт входит примерно 30'000 токенов — если добавлять больше, то модель начинает работать хуже после 32'000 по естественным причинам (это давно замечено).

Автор описал несколько итераций улучшений промпта, но самое главное, как я понял — это подать несколько представлений на вход для одной и той же задачи, просто потому, что GPT не видит так же, как это делает человек. «GPT-4o’s vision is terrible on grids» (потому что все задачи на клеточках). Ей нужно хорошо приготовить текст, разделить всё символами (типа 0 | 3 | 1 | 2, цифры обозначают разные цвета).

И второе — GPT-4o плохо кодит и часто ошибается на +-1 по клеточкам. Обе проблемы решаются с развитием моделей, так что ждём к концу года новых прорывов (хотя кому теперь интересно будет садиться за задачу?).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1555

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors.
from id


Telegram Сиолошная
FROM American