Notice: file_put_contents(): Write of 16538 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
NLP Wanderer | Telegram Webview: nlpwanderer/55 -
Telegram Group & Telegram Channel
Немного мыслей о новой модели O1 от OpenAI

Что произошло: представленная вчера модель OpenAI теперь самостоятельно генерирует скрытые размышления и при составлении финального ответа на вопрос пользователя (который он видит), использует их для генерации и исправления собственных ошибок.

На удивление, при всех заявлениях СМИ о революционности этой модели, подход является абсолютно стандартным в LLM, на который довольно часто полагаются и сам релиз был вполне даже логичен и ожидаем. Ближайший аналог тому, что мы увидели - обычный промпт-инжинириг, в частности можно взять CoT (Chain-Of-Thought) в разных вариациях. Например, пользователи ChatGPT давно поняли, что если модель попросить хорошенько подумать, пообещать ей "денег" и тд, то она отвечает лучше. Кроме того, концепция ICL (In-Context Learning) предлагает показывать примеры ответов на вопросы в промпте, чтобы модель училась им следовать и улучшала свои ответы. А еще я упускаю такие штуки из этой же области как ReAсt который сильно схож с тем, что нам представили.

Вобще, было очень много работ и даже релизов на тему "переноса" умения работать со знаниями из этапа предобучения в этап инференса модели. Одним из самых интересных является недавняя победа опенсорс 7b модельки NuminaMath на Kaggle соревновании AIMO, где она решила 29 из 50 реальных задач из международной олимпиады по математике (IMO). А также статья от DeepMind о их модели AlphaProof которая получила серебряную медаль на уже реальных задачах IMO 2024. Самым громким и довольно спорным, но не менее интригующим стал релиз опенсорс модели Reflection-70B, которая довольна схожа с o1 по своему поведению, она умеет генерировать скрытые размышления со спец. токенами и давать финальный ответ на их основе. Все эти модели так или иначе полагаются как на знания заложенные в весах на этапе обучения так и на свои генерации во время инференса, при этом оба этапа являются крайне важными для достижения таких результатов.

Подробнее об этой концепции можно почитать в одних из первых статей на эту тему - CoT, ToRA, блогпост epochai про флопсы и качество, и в недавней статье от Google, очень хорошо исследующей test-time compute подходы в глубь, как минимум часть 5 и 7 этой статьи я советую прочитать из-за множества интересных выводов, на которых отчасти будет базироваться мое следующее утверждение.

Мне очень интересен этот процесс ухода от исключительно претрейна в сторону ризонинг-алайнмента моделей и перекладывания части ИИ компьюта на инференс и я вижу, что в нем сейчас есть реальное будущее из-за существующих на данный момент архитектур LLM.

Я уверен, что способность адекватно размышлять в привычном для человека понимании не укладывается полностью в архитектуру трансформера, т.е. выбор только варианта ответа из предлженных на неизвестный модели вопрос, без этапа размышления, будет почти всегда около рандомным, только если модель не видела эти примеры при обучении или в целом очень много данных. В этом модели похожи на человека, когда он просто не знает ответ на вопрос и действуя лишь только по интуиции, скорее всего, угадает неправильный ответ. В этом я вижу проблему классических бенчмарков как MMLU которые не дают модели подумать, а лишь предлагают ICL примеры на входе.

Теперь про интуицию переноса компьюта: человеческий же мозг устроен так, что перед ответом на почти любой вопрос мы размышляем некоторое время в голове и не даем конечного ответа, а даже если дали, то можем поправить себя, это одно из самых явных отличий нас от LLM - их веса хранят лишь суперпозицию знаний, но никак не "мысли" целиком. Я вижу, что навык размышления моделей должен и может развиваться в связке или даже отдельно от самих знаний, так как лишь только знаний недостаточно, чтобы решать сложные, новые и реальные задачи, с которыми сталкивается человек. С одной стороны очевидным минусом кажется, что теперь передовые LLM будут генерировать больше текста и отвечать дольше, однако новые разработки в сфере ускорения инфреенса очень скоро сделают этот этап незаметным, так что мы, судя по всему, еще в самом начале проективрования AGI 💫
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/nlpwanderer/55
Create:
Last Update:

Немного мыслей о новой модели O1 от OpenAI

Что произошло: представленная вчера модель OpenAI теперь самостоятельно генерирует скрытые размышления и при составлении финального ответа на вопрос пользователя (который он видит), использует их для генерации и исправления собственных ошибок.

На удивление, при всех заявлениях СМИ о революционности этой модели, подход является абсолютно стандартным в LLM, на который довольно часто полагаются и сам релиз был вполне даже логичен и ожидаем. Ближайший аналог тому, что мы увидели - обычный промпт-инжинириг, в частности можно взять CoT (Chain-Of-Thought) в разных вариациях. Например, пользователи ChatGPT давно поняли, что если модель попросить хорошенько подумать, пообещать ей "денег" и тд, то она отвечает лучше. Кроме того, концепция ICL (In-Context Learning) предлагает показывать примеры ответов на вопросы в промпте, чтобы модель училась им следовать и улучшала свои ответы. А еще я упускаю такие штуки из этой же области как ReAсt который сильно схож с тем, что нам представили.

Вобще, было очень много работ и даже релизов на тему "переноса" умения работать со знаниями из этапа предобучения в этап инференса модели. Одним из самых интересных является недавняя победа опенсорс 7b модельки NuminaMath на Kaggle соревновании AIMO, где она решила 29 из 50 реальных задач из международной олимпиады по математике (IMO). А также статья от DeepMind о их модели AlphaProof которая получила серебряную медаль на уже реальных задачах IMO 2024. Самым громким и довольно спорным, но не менее интригующим стал релиз опенсорс модели Reflection-70B, которая довольна схожа с o1 по своему поведению, она умеет генерировать скрытые размышления со спец. токенами и давать финальный ответ на их основе. Все эти модели так или иначе полагаются как на знания заложенные в весах на этапе обучения так и на свои генерации во время инференса, при этом оба этапа являются крайне важными для достижения таких результатов.

Подробнее об этой концепции можно почитать в одних из первых статей на эту тему - CoT, ToRA, блогпост epochai про флопсы и качество, и в недавней статье от Google, очень хорошо исследующей test-time compute подходы в глубь, как минимум часть 5 и 7 этой статьи я советую прочитать из-за множества интересных выводов, на которых отчасти будет базироваться мое следующее утверждение.

Мне очень интересен этот процесс ухода от исключительно претрейна в сторону ризонинг-алайнмента моделей и перекладывания части ИИ компьюта на инференс и я вижу, что в нем сейчас есть реальное будущее из-за существующих на данный момент архитектур LLM.

Я уверен, что способность адекватно размышлять в привычном для человека понимании не укладывается полностью в архитектуру трансформера, т.е. выбор только варианта ответа из предлженных на неизвестный модели вопрос, без этапа размышления, будет почти всегда около рандомным, только если модель не видела эти примеры при обучении или в целом очень много данных. В этом модели похожи на человека, когда он просто не знает ответ на вопрос и действуя лишь только по интуиции, скорее всего, угадает неправильный ответ. В этом я вижу проблему классических бенчмарков как MMLU которые не дают модели подумать, а лишь предлагают ICL примеры на входе.

Теперь про интуицию переноса компьюта: человеческий же мозг устроен так, что перед ответом на почти любой вопрос мы размышляем некоторое время в голове и не даем конечного ответа, а даже если дали, то можем поправить себя, это одно из самых явных отличий нас от LLM - их веса хранят лишь суперпозицию знаний, но никак не "мысли" целиком. Я вижу, что навык размышления моделей должен и может развиваться в связке или даже отдельно от самих знаний, так как лишь только знаний недостаточно, чтобы решать сложные, новые и реальные задачи, с которыми сталкивается человек. С одной стороны очевидным минусом кажется, что теперь передовые LLM будут генерировать больше текста и отвечать дольше, однако новые разработки в сфере ускорения инфреенса очень скоро сделают этот этап незаметным, так что мы, судя по всему, еще в самом начале проективрования AGI 💫

BY NLP Wanderer


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/nlpwanderer/55

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country.
from nl


Telegram NLP Wanderer
FROM American