Telegram Group & Telegram Channel
И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1526
Create:
Last Update:

И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1526

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. READ MORE "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries.
from tr


Telegram Сиолошная
FROM American