Немного мыслей о новой модели O1 от OpenAI ✨

Немного мыслей о новой модели O1 от OpenAI

✨

Что произошло: представленная вчера модель OpenAI теперь самостоятельно генерирует скрытые размышления и при составлении финального ответа на вопрос пользователя (который он видит), использует их для генерации и исправления собственных ошибок.

На удивление, при всех заявлениях СМИ о революционности этой модели, подход является абсолютно стандартным в LLM, на который довольно часто полагаются и сам релиз был вполне даже логичен и ожидаем. Ближайший аналог тому, что мы увидели - обычный промпт-инжинириг, в частности можно взять CoT (Chain-Of-Thought) в разных вариациях. Например, пользователи ChatGPT давно поняли, что если модель попросить хорошенько подумать, пообещать ей "денег" и тд, то она отвечает лучше. Кроме того, концепция ICL (In-Context Learning) предлагает показывать примеры ответов на вопросы в промпте, чтобы модель училась им следовать и улучшала свои ответы. А еще я упускаю такие штуки из этой же области как ReAсt который сильно схож с тем, что нам представили.

Вобще, было очень много работ и даже релизов на тему "переноса" умения работать со знаниями из этапа предобучения в этап инференса модели. Одним из самых интересных является недавняя победа опенсорс 7b модельки NuminaMath на Kaggle соревновании AIMO, где она решила 29 из 50 реальных задач из международной олимпиады по математике (IMO). А также статья от DeepMind о их модели AlphaProof которая получила серебряную медаль на уже реальных задачах IMO 2024. Самым громким и довольно спорным, но не менее интригующим стал релиз опенсорс модели Reflection-70B, которая довольна схожа с o1 по своему поведению, она умеет генерировать скрытые размышления со спец. токенами и давать финальный ответ на их основе. Все эти модели так или иначе полагаются как на знания заложенные в весах на этапе обучения так и на свои генерации во время инференса, при этом оба этапа являются крайне важными для достижения таких результатов.

Подробнее об этой концепции можно почитать в одних из первых статей на эту тему - CoT, ToRA, блогпост epochai про флопсы и качество, и в недавней статье от Google, очень хорошо исследующей test-time compute подходы в глубь, как минимум часть 5 и 7 этой статьи я советую прочитать из-за множества интересных выводов, на которых отчасти будет базироваться мое следующее утверждение.

Мне очень интересен этот процесс ухода от исключительно претрейна в сторону ризонинг-алайнмента моделей и перекладывания части ИИ компьюта на инференс и я вижу, что в нем сейчас есть реальное будущее из-за существующих на данный момент архитектур LLM.

Я уверен, что способность адекватно размышлять в привычном для человека понимании не укладывается полностью в архитектуру трансформера, т.е. выбор только варианта ответа из предлженных на неизвестный модели вопрос, без этапа размышления, будет почти всегда около рандомным, только если модель не видела эти примеры при обучении или в целом очень много данных. В этом модели похожи на человека, когда он просто не знает ответ на вопрос и действуя лишь только по интуиции, скорее всего, угадает неправильный ответ. В этом я вижу проблему классических бенчмарков как MMLU которые не дают модели подумать, а лишь предлагают ICL примеры на входе.

Теперь про интуицию переноса компьюта: человеческий же мозг устроен так, что перед ответом на почти любой вопрос мы размышляем некоторое время в голове и не даем конечного ответа, а даже если дали, то можем поправить себя, это одно из самых явных отличий нас от LLM - их веса хранят лишь суперпозицию знаний, но никак не "мысли" целиком. Я вижу, что навык размышления моделей должен и может развиваться в связке или даже отдельно от самих знаний, так как лишь только знаний недостаточно, чтобы решать сложные, новые и реальные задачи, с которыми сталкивается человек. С одной стороны очевидным минусом кажется, что теперь передовые LLM будут генерировать больше текста и отвечать дольше, однако новые разработки в сфере ускорения инфреенса очень скоро сделают этот этап незаметным, так что мы, судя по всему, еще в самом начале проективрования AGI 💫

Please open Telegram to view this post

VIEW IN TELEGRAM

www.group-telegram.com/tw/nlpwanderer.com/55

2.2K viewsedited Sep 13, 2024 at 17:30

group-telegram.com/nlpwanderer/55

Create: 2024-09-13
Last Update: 2025-01-31 10:51:52

Немного мыслей о новой модели O1 от OpenAI ✨

Что произошло: представленная вчера модель OpenAI теперь самостоятельно генерирует скрытые размышления и при составлении финального ответа на вопрос пользователя (который он видит), использует их для генерации и исправления собственных ошибок.

На удивление, при всех заявлениях СМИ о революционности этой модели, подход является абсолютно стандартным в LLM, на который довольно часто полагаются и сам релиз был вполне даже логичен и ожидаем. Ближайший аналог тому, что мы увидели - обычный промпт-инжинириг, в частности можно взять CoT (Chain-Of-Thought) в разных вариациях. Например, пользователи ChatGPT давно поняли, что если модель попросить хорошенько подумать, пообещать ей "денег" и тд, то она отвечает лучше. Кроме того, концепция ICL (In-Context Learning) предлагает показывать примеры ответов на вопросы в промпте, чтобы модель училась им следовать и улучшала свои ответы. А еще я упускаю такие штуки из этой же области как ReAсt который сильно схож с тем, что нам представили.

Вобще, было очень много работ и даже релизов на тему "переноса" умения работать со знаниями из этапа предобучения в этап инференса модели. Одним из самых интересных является недавняя победа опенсорс 7b модельки NuminaMath на Kaggle соревновании AIMO, где она решила 29 из 50 реальных задач из международной олимпиады по математике (IMO). А также статья от DeepMind о их модели AlphaProof которая получила серебряную медаль на уже реальных задачах IMO 2024. Самым громким и довольно спорным, но не менее интригующим стал релиз опенсорс модели Reflection-70B, которая довольна схожа с o1 по своему поведению, она умеет генерировать скрытые размышления со спец. токенами и давать финальный ответ на их основе. Все эти модели так или иначе полагаются как на знания заложенные в весах на этапе обучения так и на свои генерации во время инференса, при этом оба этапа являются крайне важными для достижения таких результатов.

Подробнее об этой концепции можно почитать в одних из первых статей на эту тему - CoT, ToRA, блогпост epochai про флопсы и качество, и в недавней статье от Google, очень хорошо исследующей test-time compute подходы в глубь, как минимум часть 5 и 7 этой статьи я советую прочитать из-за множества интересных выводов, на которых отчасти будет базироваться мое следующее утверждение.

Мне очень интересен этот процесс ухода от исключительно претрейна в сторону ризонинг-алайнмента моделей и перекладывания части ИИ компьюта на инференс и я вижу, что в нем сейчас есть реальное будущее из-за существующих на данный момент архитектур LLM.

Я уверен, что способность адекватно размышлять в привычном для человека понимании не укладывается полностью в архитектуру трансформера, т.е. выбор только варианта ответа из предлженных на неизвестный модели вопрос, без этапа размышления, будет почти всегда около рандомным, только если модель не видела эти примеры при обучении или в целом очень много данных. В этом модели похожи на человека, когда он просто не знает ответ на вопрос и действуя лишь только по интуиции, скорее всего, угадает неправильный ответ. В этом я вижу проблему классических бенчмарков как MMLU которые не дают модели подумать, а лишь предлагают ICL примеры на входе.

Теперь про интуицию переноса компьюта: человеческий же мозг устроен так, что перед ответом на почти любой вопрос мы размышляем некоторое время в голове и не даем конечного ответа, а даже если дали, то можем поправить себя, это одно из самых явных отличий нас от LLM - их веса хранят лишь суперпозицию знаний, но никак не "мысли" целиком. Я вижу, что навык размышления моделей должен и может развиваться в связке или даже отдельно от самих знаний, так как лишь только знаний недостаточно, чтобы решать сложные, новые и реальные задачи, с которыми сталкивается человек. С одной стороны очевидным минусом кажется, что теперь передовые LLM будут генерировать больше текста и отвечать дольше, однако новые разработки в сфере ускорения инфреенса очень скоро сделают этот этап незаметным, так что мы, судя по всему, еще в самом начале проективрования AGI 💫

Telegram | DID YOU KNOW?

Немного мыслей о новой модели O1 от OpenAI ✨