Telegram Group & Telegram Channel
Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].



group-telegram.com/seeallochnaya/2175
Create:
Last Update:

Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2175

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies.
from sg


Telegram Сиолошная
FROM American