🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
group-telegram.com/ai_machinelearning_big_data/6559
Create:
Last Update:
Last Update:
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
BY Machinelearning
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/nQNSYS3nbqbKBNzFZkGiqIjOQWOEBhg2OcTiGqcJ0l4YJOt5HbJ3nv12jpWxJz6yNUG_srvqCe2vPQ2QrQ5JWnUGkDYG0cbIJB0r0usibnUvOm9G1M4j5mpYjJbxjUg6C75TWt1YxSKT3rRfE_QsFL7QzsqNXhiFk5cJH4IhdVarwP6WCkrPeZ-HLgeEitfJ4TBeuowGYM2kZq0tvCd9jENPYsry49HwbLyO_xNrgpZ1wfsIxst4ykY7DbyP2gsdL1U3FkeLOPqBVmmFDOHvwMPHGqJ_QKr72k21n4nMjbomsKu_Akf841rZWWGlDiFdTRNET5IvIstQjdw_Qyvutw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/vECDWj7jgyqviTUojbEyqOaB7jeUMBGO1lP2-05B-9antH4WvIl2RphL0oPQQd2Jjs4170HAtdaWPEXTnVCPIzyYTfS23AeN1zzVaZs-JoYiNin0Jchu4xpHU64VKWXkNNABUABKliqQQEa9v_zuBcf3IT4kblbNd2QgmKwVfcAFLB3DBJAD_1vI0XYDTR0DSWpPuFVZKWSQbU6EN4vkYCaA48KGrcwkXLulKifmY7qmrVDvRkgzWA8iN5XBye7sF7s0U_iZDlra-YlBDcq6idvIjMF9AlWtkZX_3bwGKoIGorQbqXxwiB9slhi-XYU33ZBkZf0cuYthC0z7DnMQKA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/lDzc-KAGEm0ywKz469XJYlQeab1_dSiPiZ3CCrUmoTYZa1zx4J-dcvmpcpYXcDVtFctadWv564WQhpXpUP3f5sHa-BP263G8mnCm5IfhouNRfLos2JNx5bN-CVSey-pXuN357UjVPRBAwejHTer7zxcHLWd_HsEJ-TxB73Ako0w4bsXej6HQQmKH3xIlL7ej9VE9FCZ8_n2iP9OAMddB3tKkmXnx17zM0UvuuSNZqXKB8RTHuDcrlErlpSG18WW2nEgZd6o6eqQIfKBqqb_QpdNgJ1btqGmgs7iWbOkOQ3qzgZckmNE8c9iBLiLO6TF_iBDrIi6UCbj4gx8n6FfAIw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/gGXgS6-uHMr-fjX-EvengEgAh9iFxZN8fUQ00H9EOEf6k8IOhYRxYrV_Mb8E6K7ErP1DDE09o73GaabxfDRK2yEJVytI9Q2bn-jpNfEpjKeYEXE7RjbTgqlSGLM533ZJ8vFbBWfF7mz2IfHAfaUuJPhFNsJamD5yhByHJUlG9A0SiAbRjeUXkSzrSd3cAfWWhNwvAHPNPIepRTBDEa8YZM5fln8c5VwHZlLLsnIDEt_KEa2QYDV3Q_jHD079rJDOLgScWLuOeSsbZyRQ_mPbL6ewvplQLC3cWGqi9H4-vxCsdMFHtLBSIGAWDzRYg4XH9Fm3VH9qTDIXE2EJP78U9Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/MSZrCHYwAkCXfwe9ogQjUE4wZv_L0F-1v-UVpoj4unyVFeuQDXG3CkaDXk392McQYtXQJw6XrC-pS6Y625xcYBQNKWEcpjle5cF5QCmAGPnZG5mT_c3aFN39D_imSC84oor2MDLJdABHNIUeUMBlC8k6tFPbf92r7ZbnMbjfYroqbZk4REAOtmAmzQAYQYSfTfm-EEymfBY8NEfXuJwpJNXrQw0e-fpQHjdFwnC_HqYWzHBNx07_WuHJKgva2rPsNE1JUlcwb0fFEFwA7WacPScVM80M9BxBHmrG6qYPBJQ9jl6t8vVocV-dbRGVflp5JQaQtyakwodu4NUcooJ-bA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/RFYDywcPBWqgUMzXtgl0QsenLjHdClhIf1gmZzwAvWoTWM6PAzgCCzh5YCxAuZqEHZ51zsM9NXEmeHlOSiB4RmLYZ66dQPtapUBxRmTHlCTiKeXqrPDI9N88ziTR0gclZxuCvuFQ6611i8Vx0gZE3919KPSbAR_JCx1-E23Vmn-Xd3HrheP8NjaBhtq3E5YyIlii1bMPpodBKi8X57VjTSGvgSOFWCcuYcRh5mv7AwhJgEdcqHuAk__oSQrfLbCeZyNPM5p7xDmqc-l4kj5szjQEWWJh8qT7S02-WgpU3dalzskGK_O7Vxec40xrijryRaEha-seQSxEfVBbXPVU-A.jpg)
Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6559