Notice: file_put_contents(): Write of 2089 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 14377 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1555 -
Telegram Group & Telegram Channel
Помните вот эту ситуацию? Когда человек утверждал, что LLM не могут решить какую-то задачу, утвердил приз $10'000, и через два дня расстался с деньгами? Я ещё в комментариях шутил, что если хотите на серьёзных щах что-то утверждать про ограничения систем — надо готовиться выкладывать деньги, ибо иначе людям, которые реально могут доказать, что вы не правы, просто не интересно.

А помните я на прошлой неделе писал про бенчмарк ARC от Francois Chollet? Якобы что это визуальная загадка, где нужно уметь на лету идентифицировать новые паттерны, и что текущие LLM в этом вообще не разбираются, и выдают <10% качества?

Как написали в одном из чатов (автор @senior_augur):
— Я думаю ARC никто долго не побивал, потому что он никому нахер не нужен был

На интервью Francois говорил, мол, вот LLM не умеют рассуждать и обобщаться, бенчмарку 4 года, а воз и ныне там стоит. И утвердил конкурс (ну и получил освещение в подкасте) на $1M (правда там пока только $500k доступно, и то со звёздочками, что фронтир-модели, лучшие из лучших, под критерии не попадают).

Прошло 6 дней. Воздуха набрали? Готовы? 😏
Знакомый подкастера из Redwood Research написал пост, где показывает, насколько высоки метрики GPT-4. На тренировочной выборке (публично доступной) качество 71% на 100 отложенных автором задачах, в которые он не подглядывал. Качество человека в среднем 85%. Кажется, что разрыв большой, но напомню, что основной тезис разработчика бенчмарка был «ну так LLM и 10% не решают!». На приватной выборке качество 51%, но не удивляйтесь — она сама по себе сложнее (и для неё неизвестен показатель человека, в смысле его просто не померили). До этого лучший метод давал 34% и не опирался на LLM.

Осталось дождаться, что Francois со своими друзьями возьмут метод и запустят на самом ультра-приватном датасете, который ещё никто не видел (специально для соревнований сделали), увидели там 50%+- и сидели вот так: 😅 , переосмысливали своё представления об «ограничениях дип лернинга».

Но вам наверное интересно, как работает решение? Примерно так:
— GPT-4o на каждую задачу генерирует примерно 5000 программ на питоне, которые потенциально могут быть решением
— программы фильтруются по их способности повторить 3 примера, которые всегда даются (по условиям задачи, именно по ним нужно установить зависимость и дать ответ)
— топ-программы, дающие максимально похожий результат (если нет правильных) отдаются на правку GPT-4o, типа «вот как нужно, вот как ты сделала, исправляй эту хрень». Тут генерируется ещё 3000 программ (итого 8000)
— выбирается финальный кандидат для решения.

Для того, чтобы это работало хорошо, нужно немного поиграться с входными представлениями (так как, как я и говорил, модель не очень хорошо «видит» картинку, совсем не так, как мы), используя ASCII и написать несколько примеров рассуждений. Обычно в промпт входит примерно 30'000 токенов — если добавлять больше, то модель начинает работать хуже после 32'000 по естественным причинам (это давно замечено).

Автор описал несколько итераций улучшений промпта, но самое главное, как я понял — это подать несколько представлений на вход для одной и той же задачи, просто потому, что GPT не видит так же, как это делает человек. «GPT-4o’s vision is terrible on grids» (потому что все задачи на клеточках). Ей нужно хорошо приготовить текст, разделить всё символами (типа 0 | 3 | 1 | 2, цифры обозначают разные цвета).

И второе — GPT-4o плохо кодит и часто ошибается на +-1 по клеточкам. Обе проблемы решаются с развитием моделей, так что ждём к концу года новых прорывов (хотя кому теперь интересно будет садиться за задачу?).
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1555
Create:
Last Update:

Помните вот эту ситуацию? Когда человек утверждал, что LLM не могут решить какую-то задачу, утвердил приз $10'000, и через два дня расстался с деньгами? Я ещё в комментариях шутил, что если хотите на серьёзных щах что-то утверждать про ограничения систем — надо готовиться выкладывать деньги, ибо иначе людям, которые реально могут доказать, что вы не правы, просто не интересно.

А помните я на прошлой неделе писал про бенчмарк ARC от Francois Chollet? Якобы что это визуальная загадка, где нужно уметь на лету идентифицировать новые паттерны, и что текущие LLM в этом вообще не разбираются, и выдают <10% качества?

Как написали в одном из чатов (автор @senior_augur):
— Я думаю ARC никто долго не побивал, потому что он никому нахер не нужен был

На интервью Francois говорил, мол, вот LLM не умеют рассуждать и обобщаться, бенчмарку 4 года, а воз и ныне там стоит. И утвердил конкурс (ну и получил освещение в подкасте) на $1M (правда там пока только $500k доступно, и то со звёздочками, что фронтир-модели, лучшие из лучших, под критерии не попадают).

Прошло 6 дней. Воздуха набрали? Готовы? 😏
Знакомый подкастера из Redwood Research написал пост, где показывает, насколько высоки метрики GPT-4. На тренировочной выборке (публично доступной) качество 71% на 100 отложенных автором задачах, в которые он не подглядывал. Качество человека в среднем 85%. Кажется, что разрыв большой, но напомню, что основной тезис разработчика бенчмарка был «ну так LLM и 10% не решают!». На приватной выборке качество 51%, но не удивляйтесь — она сама по себе сложнее (и для неё неизвестен показатель человека, в смысле его просто не померили). До этого лучший метод давал 34% и не опирался на LLM.

Осталось дождаться, что Francois со своими друзьями возьмут метод и запустят на самом ультра-приватном датасете, который ещё никто не видел (специально для соревнований сделали), увидели там 50%+- и сидели вот так: 😅 , переосмысливали своё представления об «ограничениях дип лернинга».

Но вам наверное интересно, как работает решение? Примерно так:
— GPT-4o на каждую задачу генерирует примерно 5000 программ на питоне, которые потенциально могут быть решением
— программы фильтруются по их способности повторить 3 примера, которые всегда даются (по условиям задачи, именно по ним нужно установить зависимость и дать ответ)
— топ-программы, дающие максимально похожий результат (если нет правильных) отдаются на правку GPT-4o, типа «вот как нужно, вот как ты сделала, исправляй эту хрень». Тут генерируется ещё 3000 программ (итого 8000)
— выбирается финальный кандидат для решения.

Для того, чтобы это работало хорошо, нужно немного поиграться с входными представлениями (так как, как я и говорил, модель не очень хорошо «видит» картинку, совсем не так, как мы), используя ASCII и написать несколько примеров рассуждений. Обычно в промпт входит примерно 30'000 токенов — если добавлять больше, то модель начинает работать хуже после 32'000 по естественным причинам (это давно замечено).

Автор описал несколько итераций улучшений промпта, но самое главное, как я понял — это подать несколько представлений на вход для одной и той же задачи, просто потому, что GPT не видит так же, как это делает человек. «GPT-4o’s vision is terrible on grids» (потому что все задачи на клеточках). Ей нужно хорошо приготовить текст, разделить всё символами (типа 0 | 3 | 1 | 2, цифры обозначают разные цвета).

И второе — GPT-4o плохо кодит и часто ошибается на +-1 по клеточкам. Обе проблемы решаются с развитием моделей, так что ждём к концу года новых прорывов (хотя кому теперь интересно будет садиться за задачу?).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1555

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read."
from kr


Telegram Сиолошная
FROM American