Telegram Group & Telegram Channel
Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ошибки в рассуждениях) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]

McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.

Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.

McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.

Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.



group-telegram.com/seeallochnaya/2176
Create:
Last Update:

Bubeck:
— я согласен с этими вещами (про тренировочные данные, креативность и ошибки в рассуждениях) и с исследовательской работой McCoy, но я прихожу к другим выводам и спорю с тем, как это воспринимаете вы. Я вот могу судить по себе, что большая часть моих исследований — это комбинирование того, что уже есть, плюс совсем немного случайных блужданий вокруг идеи. И то же я вижу в подавляющем большинстве других работ, взяли то и это, скрестили, получили такой результат. Комбинирование само по себе — это безумно сильный навык.
— Что же касается ненулевых галлюцинаций в длинных цепочках рассуждений, ну, кажется эта критика применима и к людям. Если посмотреть на черновики научных статей на 50+ страниц — они часто содержат неточности и ошибки, и поэтому у нас есть процесс ревью, где люди получают обратную связь от ревьюиров, им указывают на белые пятна итд. Это важная часть итеративного процесса исследований. И она хорошо переносится на LLM, где нескольким разным агентам присваивают роли: одна модель генерирует решения, другая ищет ошибки и указываете на них, потом первая исправляет и так по кругу.
— И последнее — да, модели могут хуже решать задачи, навыки для которых редко проявляются в тренировочных данных. Но это не значит, что этих навыков в них нет — они представлены, просто на модель нет давления их проявлять (и она не выучилась как их использовать), но можно использовать дообучение для того чтобы извлечь и проявить навыки [прим.: как делали с GPT-3.5 и с o1]

McCoy:
— а мы кстати провели те же исследования на сортировку и подсчёт с o1-preview, и хоть модель стала существенно лучше, всё равно не справляется так хорошо с менее частыми примерами задач. Пока не выглядит так, что дообучение позволяет побороть проблему. А чтобы комбинировать навыки и знания нужно знать что именно комбинировать, и моделям часто нужно явно говорить, что брать и что делать — они сами не могут.
— Если рассматривать самые успешные и прорывные доказательства в науке, то они отличаются креативностью, используют и комбинируют вещи в новых форматах, не так как, как это привыкли делать.

Bubeck:
— Я поделюсь своим опытом. Недавно во время работы с о1 [прим.: он говорит o1 плюс эпсилон, ахахах это наверное o3 была? на момент дебатов её не анонсировали] я взял свою статью которая уже почти дописана, но нигде не опубликована, лежит ждет полировки. Материал точно новый, и отвечает на вопрос «how long can be the gradient flow of a convex function?». Я задал этот вопрос модели, и она подумала и предложила связь этой темы и «self-contracted curves» и объяснила почему это хорошая идея. Когда я работал над статьей мне потребовалось 3 дня, чтобы самому прийти к этой связи. Я мог бы написать статью на 3 дня быстрее даже вот с этой базовой моделью, доступной сегодня! И это не гипотетические ситуации, это уже вот здесь с нами в наше время.
— Вдобавок я знаю людей в аудитории, которые рассказывали похожие истории, как о1 им помогала с нахождением связанных с их вопросом лемм.

McCoy:
— ну это всё как бы да и круто, но ведь те математические проблемы, о которых мы говорим в рамках дискуссии — сейчас-то люди с ними не справляются, то есть не достаточно достигнуть уровня «как у людей», нужно прыгнуть выше. Не считаю, что про это мой оппонент что-то сказал.

Закрывающие высказывания. McCoy:
— я оптимистичен по поводу AI-помощников, которые помогут нам, даже в этих нерешённых проблемам, но скептичен, что дальнейшее масштабирование приведёт к автоматическим доказательствах, не вовлекая людей.
— Что нужно улучшить в моделях? Длинные рассуждения и долгосрочную память (и её использование), надежность работы и ситуацию с галлюцинациями тоже нужно улучшать.
— Никто не знает что значит быть креативным, но что скорее всего важно - это аналогии и абстракции, которые помогают смотреть на те же идеи под новым углом, и находить новые связи.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/2176

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from hk


Telegram Сиолошная
FROM American