Telegram Group & Telegram Channel
Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).

5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).

Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.

6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).

Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.

7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.

8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.

Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).

Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).



group-telegram.com/seeallochnaya/1261
Create:
Last Update:

Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).

5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).

Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.

6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).

Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.

7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.

8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.

Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).

Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1261

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." 'Wild West'
from sa


Telegram Сиолошная
FROM American