Notice: file_put_contents(): Write of 5823 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 14015 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/1526 -
Telegram Group & Telegram Channel
И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/1526
Create:
Last Update:

И это был пост-подводка к текущему посту. Вчера Francois Chollet пришел на интервью к Dwarkesh, где обсуждали несколько вещей:
1) запуск соревнования на $1M на решение ARC
2) проблемы теории гостя, проблемы замера и некоторых тезисов.

Первое якобы должно подстегнуть развитие области, но при этом решения, за которые можно получить приз, принимаются только в закрытом виде, то есть без доступа к интернету, и с ограничением по рерсурсам. Никаких фронтир-моделей тестировать не будут 🤷‍♂️ для них есть открытый публичный бенчмарк, надеюсь, Claude 4 и GPT-4.5/5 померяют хотя бы на нём.

А вот про второе интереснее. Francois говорит, что есть два типа reasoning (рассуждений? какой тут уместный перевод):

Первый: У вас есть заготовленный набор шаблонов—паттернов—мини-программ, и для решения новой проблемы вы находите, какой из них вам нужно применить. Затем берёте, подставляете новые значения, считаете и получаете результат.

Но в терминологии Francois это «запоминание», а не обобщение, ибо вы не сделали новую программу (в широком смысле, не реальная компьютерная программа) на лету, вы использовали существующую. И если в мире что-то новое произойдет, то этот подход работать не будет.

Второй: когда вы встречаете новую проблему и у вас нет в памяти правильных шаблона—паттерна—мини-программы, то вы на лету их синтезируете. Да, могут потребоваться какие-то примеры, но человек очень эффективен с точки зрения данных: зачастую из 2-3-4 примеров получается придумать решение (для простых задач, понятно, что не для самых сложных — нельзя разобраться в теории множеств по одной формуле).

Как вы видите, описанный выше бенчмарк как раз целится в разрешение замера reasoning по второму определению. Но у меня к нему КУЧА вопросов. Самый главный — синтез ведь происходит не с нуля, а из каких-то базовых блоков? а где тогда граница между первым и вторым — что если я все блоки достаю из памяти? а если я их переупорядочиваю так, как никогда до этого не видел? Влияет ли длина цепочки шаблонов на оценку (можно ли назвать синтезом, например, комбинацию умножения и сложения, двух очень простых операций?)?

Francois согласен, что LLM справляются с первым типом: они выучивают паттерны, они их применяют. Не ясно правда, почему они не способны на второй, хотя бы с архитектурными изменениями (добавление рекуррентности вглубь). Жаль, этого и предыдущих вопросов на интервью не прозвучало(

А третий вопрос, который прозвучал, но который дважды был проигнорирован — это привести пример ежедневных задач в работе, которые требуют второго типа reasoning. Chollet говорит, что мы с этим сталкиваемся каждый день, и на вопрос «в какой день босс поймет, что удалённый сотрудник — это прокачанная LLM?» он ответил «в первый!»...но так и не смог сказать, как именно. И это безумно странно — он над концепцией думает не меньше 5 лет, и у него нет ответа даже на такой вопрос? Раз мы ежедневно пользуемся вторым типом — ну наверное и примеров тьма должна быть? бери и приводи 😏

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/1526

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from br


Telegram Сиолошная
FROM American