🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
group-telegram.com/ai_machinelearning_big_data/6559
Create:
Last Update:
Last Update:
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
BY Machinelearning
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/SX2_B3Bx6vrmT9cnQjIauqtjZgCx_Ei1qhY8y3SnpkitXZv8mCtZ1ZAZGjys9yoGUFxu9ob4l3iNpdFrqU9H_MTv_zMppRZsHvzZEGgAr4qkp_oPvhikUnBPNtlnnlIhXj-LjI-lWcb6oC81094GacqzHuCKcHBEe0lmjsCBqFOq7J-45NSfDis8mtabhad68mHFbJnm8--tWwG3iFM6j5l_TYS3X8HffE86TmATTxav_StlzfKZ57iQretqOIfDv9c0Hgxpor4lX7IY4oBHv4MMRgFNm-uMJ4dSY_tVqRIKSi6glR7FAkKG9YZdrFLbIwC9VNdv5iwJh4vbJ59CKA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/i8iy8FeRNIYfxloU-HV2sF8SDPKqrbtbVxsoX8dNudc6vY7-SdPFMrEpV4edFd8QsAavcOcHHvi-DZKgAouErxpReqxn93CSPkpYc6Sgvmk49v8uZXcduEenegwGjBPIC5gcmCcCNDwkpSOr0e3H_qWvW8rMsZF_Au6v3V_g-MyONE5TJIyjGCZLrPM1TArXdob8DISfYAz-r-PreZbl0fvyYaZZEP-E9RsRyFHFiaWTn-MlrTgNBoCnGIeQHhlrTyXOQuoDYZGY-jY2XZuOWB_guBzFffxlCT8wj5QWYm_ejmxYd7RNI4g-dhD7wI9DKm1ND3Oml-8QZvvbT0j-Rw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/XusNfR3D9Cw5Mp_WhH-LHqaKXJWWodnkr6p0mhqXApddW19aVpJyW_F_cHYMPSHjrIlCzTamlzr6DrmuOAZ9WJIinAzdvWP00hMqo6bA6vxZSItOw0t4BuoRmbeyVs1kzqt0l-tFeepufvloB7JtefGaRfF8dkx1_d5osdnV-EbJ3C1YANGBvhZ-L18i7NpH8FbeEnUNvjyG55VHM2iAHKkrtAOkN2xrko-gPZT-i9WLXpP3rmg4VSVq9C1xIVz_DZdEGqVTZkDwSEkTh_scC_wQuWTkJ9Vra-bGzIoKiAfo7hsD22pl-6haOWSfDBVgzg49tMBNDhnj2ooNqTzIEQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/OZ2ail7hFLAklvpYUYAoaHU-wiVFXMscsrqAlUyTHEdCrBWRA5YQUpnQjWSbOn9rybbmbfrHLexr9ZHPffQpZJO1p6V67OUSFwDRJej93RFpigmHkxLQGYmzlDURzSefQaz1guRr9xDqkSkfFInVCIMz-nu6GWidgo6DpRK9RtTMHz5LYzd-erVI4glLwt8x49B2VmY-5BMgJT1d8Q6TrPN9KRhSUQzDXISEOMBcwY7_zQ4LOA4CKvAeIZJNYMZPvaEun1nGvrZ2JWJhqeGe634lQZVgqCp1rA3Ch4AKo9Y0WAc_oDrqgbZo9s17g5_8tvyxHdJEXplDfDVmNOQPdw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/piN-ZjOr0GlXf4JK18rPKWajIChj5Y-9mVW8ovTaiVFZHOoT1io3B3GPFJVSi0851cHpuxjq9OSv85U0D7Njy8d8xsaybjMNbhdkjD2KQSYEv3XQjyB-DlhVE_hdh64cqJsW-Ag-E9FmNfyon5X4R1K0X9uNxFSK0b6viH_QAC2anWhCwzL-TEpY-MOY2DFOYOGybm8k6IdjrEH4iY1cYFljUY1p9QdqdcIktwyaI6Qo3XAxGCSTy4EXUqt0FwjMHvWbVOgLPp3kUZtSgphiZ-GOXkTPcj84Nuz7zbge8uErzNgjT9Db8I7XU-sL1c_kwu3miJrWhq0Cz1agEfRY-A.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/TPNCyfINuZx80tEiOxntp9BKpBusth_qOi2ofytn2hqVjdr4EQ3MMc5jSTjZufq76HPiRmL_eutNaL1bClt9m-2l-J8WFpLURJFbMVoIS-mmJDzDHPyso3blB3k4WEiz6gITr2o0KL5qXOjkcMYiQQrtIWTTf85URLwH-27a5JAQdOxZjXWhiDNytLvfBZfycyLP2CwsBZdKD_0a_nD7LZ5IZmT14UCfzPgMxdyXc44p4JCjWn3vhtpVtTTIBQeXxcQ6nYALxuJVPcZoi0o20d4zlE6q0KyDENM02D1vHpChnI_n96nBrVqA2T5Gdo1LPhTxHfH0UAXbbvlysAmNNQ.jpg)
Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6559