Telegram Group & Telegram Channel
Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].



group-telegram.com/seeallochnaya/2175
Create:
Last Update:

Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2175

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. Despite Telegram's origins, its approach to users' security has privacy advocates worried. READ MORE In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai.
from jp


Telegram Сиолошная
FROM American