Telegram Group & Telegram Channel
Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).

5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).

Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.

6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).

Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.

7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.

8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.

Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).

Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).



group-telegram.com/seeallochnaya/1261
Create:
Last Update:

Интересная ситуация произошла в Твиттере (но на самом деле она часто проходит и в комментах тут, и в других ТГ-каналах).

5 апреля: VictorTaelin придумал задачку, которую GPT НИКОГДА (он прям выделил) не сможет решить. Почему? Потому что модель же тупая, она не умеет рассуждать и решать задачи, на которых не была натренирована. Узнали себя или критиков из комментариев? 🙂
Для него такая задача и невозможность её решения якобы служила примером того, что модель никогда не сможет двигать науку: «если 15-летний подросток уничтожает модель в какой-либо интеллектуальной задаче вроде этой, то я не буду особо верить в то, что она сможет вылечить рак». Само заявление конечно странное, но допустим (на самом деле он пытался найти такую задачу, которую человек решает, а машина нет — что опять же глупо, люди не умеют то, что может калькулятор — и что?).

Что за задача? Есть 4 символа, B# A# #A #B. Если две разные буквы в некотором наборе символов повёрнуты друг к другу решётками, то их надо поменять местами. B# #A -> #A B#, и так далее, пока никакие два символа нельзя обработать. Сможет ли генеративная LLMка разобраться и решить задачу для строки из, скажем, 7 символов? Автор попробовал несколько раз и у него не вышло. Всё, дело закрыто, AI - хайп, пузырь.

6 апреля: после волны недовольства в комментариях, а также демонстрации того, что иногда модель решает (особенно если немного поменять условие и/или добавить интерпретатор кода, чтобы модель, ну вы знаете, могла писать программы), автор решил сделать конкурс на $10'000. Полные правила можно найти текстом вот тут. Правда он усложнил задачу — теперь символов в такой строке 12 (то есть нужно сделать от 0 до 24 шагов для решения), подаётся 50 примеров, и нужно, чтобы модель решила как минимум 45/50. 12 символов потому, что ему уже показали, что строки длины 7 решаются (иногда).

Главное ограничение — модель не должна писать код, решение должно быть полностью текстовое. Само по себе это глупо, ведь мы отбираем у модели инструмент, которым а) она умеет пользоваться б) хорошо подходит для таких задач. Блин, языки программирования и были придуманы для алгоритмизации задач со строгими правилами! Ну ладно. Считайте, что задача — забить гвоздь, но кувалды и молотки запрещены.

7 апреля: модели решают <10% задач (5 из 50), однако у двух авторов получилось выбить 29/50. Интересно, что тут вырвались вперёд модели Anthropic семейства Claude 3.

8 апреля: конкурс окончен, промпт одного из участников стабильно решает более 90% задач (47 из 50 при первом запуске). Напомню, что задачи даже более сложные, чем в изначальном твите (они длиннее), а главный инструмент решения выключен. Автор признал, что был не прав. Он также указал, что действительно верил, что LLM, аналогичные GPT, просто не могут решить такие задачи.

Автор признал, что его изначальные верования были неправильными, он ошибся. Решение задачи, конечно, не доказывает, что модели смогут придумать лекарства от рака, но они точно могут решать логические-алгоритмические задачи, которые не видели раньше (в целом не новость, но не все верят ведь!).

Интересный факт: финальное решение работает на модели Claude 3 Opus, но ни одно из топ-решений не было на GPT-4. Может, Anthropic уже используют новую архитектуру, которая лишена некоторых недостатков своих предков? Или OpenAI сильно урезают косты и ужимают модели? Возможно, узнаем в будущем — так же как и промпт, которым была решена задача (он пока не был опубликован).

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1261

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress.
from hk


Telegram Сиолошная
FROM American