group-telegram.com/seeallochnaya/1526
Last Update:
И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.
Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут
А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):
Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.
Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.
Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).
Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?
Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(
А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи