Notice: file_put_contents(): Write of 1726 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 14014 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1526 -
Telegram Group & Telegram Channel
И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1526
Create:
Last Update:

И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1526

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from us


Telegram Сиолошная
FROM American