Telegram Group & Telegram Channel
Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ошибки в рассуждениях) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]

McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.

Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.

McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.

Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.



group-telegram.com/seeallochnaya/2176
Create:
Last Update:

Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ошибки в рассуждениях) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]

McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.

Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.

McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.

Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2176

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For tech stocks, “the main thing is yields,” Essaye said. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from ua


Telegram Сиолошная
FROM American