Telegram Group & Telegram Channel
И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1526
Create:
Last Update:

И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1526

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed.
from ua


Telegram Сиолошная
FROM American