Telegram Group & Telegram Channel
Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].



group-telegram.com/seeallochnaya/2175
Create:
Last Update:

Утром посмотрел дебаты, прошедшие в Simons Institute пару недель назад. Тема для обсуждения: «Текущие подходы масштабирования LLM достаточны для создания новых методов, необходимых для разрешения основных открытых математических гипотез, таких как P != NP» (ну и две позиции, согласны или нет). В них участвовал Sebastien Bubeck, автор статьи Sparks of AGI и ex-VP AI Microsoft (автор линейки моделей Phi), недавно перешедший в OpenAI для работы над синтетическими данными, и Tom McCoy, исследователь из Yale University, про которого я ничего не могу сказать, кроме как сослаться на упоминаемую им статью. Ниже — краткий пересказ их дискуссии.

Bubeck:
— мы видим по всем бенчмаркам существенное развитие навыков в моделях. Один из подходов, который я использую для рассуждений об AGI, это сколько времени работы человека модели могут взять на себя. С выходом GPT-4 мне стало ясно, что это AGI-секунды: модель может выдавать ответы, как если бы человек не думал больше пары секунд. В таких ответах бывают ошибки, но это уже что-то. Именно это сподвигло написать меня статью Sparks of AGI. С моделями типа o1 это уже AGI-минуты или даже AGI-часы, если говорить про математику и программирование. Дальше последует один AGI-день, первые агенты, которые могут решать задачу 6-10 часов и выдавать результат. После этого будут дни, а там и недели. А AGI-недели — это всё, что нам нужно для достижения большого количества открытий.

McCoy:
— наш анализ показывает, что модели хороши на тех задачах, которые представлены в их обучающей выборке, и чем чаще что-то появляется в тренировке, тем лучше будет модель. Тут он ссылается на свою статью, где пробуют считать 29 и 30 букв (30 встречается чаще, круглое число) и смотрят на качество, или где работают с алфавитным упорядочиванием и обратным. Для того, чтобы решать принципиально новые задачи, которые ещё не решены математиками, нужны качественные изменения, ведь эти новые проблемы по определению имеют нулевую обучающую выборку. Нам не на чём учиться под нерешённые задачи. При этом я не отрицаю, что у моделей есть генерализация, и что они могут справляться с новыми примерами, не виденными во время обучения. Кроме того я верю, что они умеют делать композицию из нескольких знаний или навыков [прим.: я видел статью, там доказано на примерах, что это правда так: модели могут исполнять последовательности навыков, не встречавшихся ранее]. Но для того, чтобы создавать что-то поистине новое, нужно уметь быть креативным, с чем у моделей есть проблемы. Вдобавок, пока у моделей уровень галлюцинаций выше нуля, длинные цепочки рассуждений будут содержать ошибки, не позволяющие справляться с исследовательской работой [прим.: прям как ЛеКун говорит].

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2175

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. READ MORE
from in


Telegram Сиолошная
FROM American