🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
group-telegram.com/ai_machinelearning_big_data/6563
Create:
Last Update:
Last Update:
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
BY Machinelearning
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/QBEbM_tJjLcnOAuX9ybp7nPC4Cc5Z0YT7r0pnnB4Tq9DuJNzb60zcqGlytNdtJSUDUk-kA0EqmpwMcaC6cV8WIe8zQpfFd0KMhmxYKNlCCbIUD0YIiFPfcQkoM-7HdzT32Z6sQFQXrzT3IB3wUg6JD7tgZTNNhrc1T6_YQtA2WrlV7uqzWcPyMooLzqZyMjIQ2C2zVi0q2bbh5v7zXTDMaQvid0dDzDU6ZDxGAk0xgIwnc1BQBOrQ-H0YPaOM5bFTGB19Yp1-JINDlZS8v5pJMcZwNs_SN32XfAWNu83tDmcYES8dfx3gblrJeSMradQxvWKjdl2G5Hmj3CBV0amLA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/CSRtMYd6tJfSKc1xsV8umSadU88QqjcwxOcrmhDsJV-FR47Xg1ulgftC6p3jo13Rpx6Qw_gQGnyfphuLzC6G9GU9V8Jgvk8QJrHyp4rLf6sxpFDcrfn897e39XlLbu7KEs4nvgbgtE_KzjphgAzKgDI7aXTIzhLaIl4GgjUz3dvCcy618u5_YXwFecDnesJGntrrMSWU3H7jtkwjnpPaNY4IdGQwrKQtgjz_WGuY8Ie-6M9fYup2M8nySueigZ720PH5Nyz9egBBR9x2Bj4BSmNbID2HezU4YvQKhb3vc_CAlxPdChDRXa-Ece2_DV_3-6ciSFVTmPbYiAjMiwKcGA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Co6Ilnc9hUfSiUBB56IEoNga9krTYyaMVeTWNTRBklhjYH_4slEdkDohrXX61EhnzGC9SkWcORju4s6XRpoGmxgqxqJ6Ne3SQ-mb-Hk58dwOnfkQFBsjQkJjj3-QBhNiUgJmSiQ0Kdgykh3MCuIswwdH9AlcdBVgAIt2wNic8C6LbPf903yyFzVWlX9S76C_jrmiPr0qGd84zQQgR9iqe4ejVX40dbTXOJlNTgmfSdHyDJYoPYkB5jzd7cWKp2kbi01nDdmVfpiHlmAv5wmfdjYmtM3elCkJkNGTyUaBROSFVjFpjRMmG9Ca9Cax1clTicaaxAKUFZOvLrMrpGcmqA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/blv21I9sST7iUNz8dWZYt5Ui0SQ-AMDPngD_-eafKqa50eXx1fXgJwc-exeOWiGEVeM7eHfvgdVzFd2HmY_QnjBqMlKZmqPkJFdHbczep5YekKXVv3U5pYK207VIsJeAqjY3EkVdyGOcG4dSK0ROdEhlY8QJ3bTNFSnr40hkYXkr-UysOr3QjL3rcgomzFtaWQCaRSGy1ldvRBNngHFb1IybuORQrwuexMdjbQBaj0gEk-hhe2mGnATj44qhLya2m-UDhFuNMGa7Q-fo_8c6oNYGb3WwRaMUZWh7Z0fMcrfQHFgtrrFGXn7p5jmK_W0iKQbMTCVSw4hERW4raaJGhw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/boNHjy9lhimWOQ5e1H54FqsyuwmR9PDbhtHODifXHbGRxeqmpjD5jgTJc89lHoLbcYR3YTgHmAI6c-SJd1MrLiI1dMoYt0cOmNfciqZnHNpJjRrJfaRPDuX3s7GrRKBkin0NB-gkpcZ7MEf_uqZvy8Wmgw6_nBaseZgCfBEpDdDHKToBVjwHYWQpDtfCHS4j_FQbMdqdNBkSG4HzLufTb1nQuEstLNOIddEszcA5j79H-ijkKB5HRVLhF73z3QAKJ-nyAjGSia4mzB2atei_-ZE4ntCB7bq5US5U6TglwE_fJoXsKOfwZkOnO6NSmHu9xIQ7Sd4HNGuBtFM0g6Yq2g.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/GQO2aRlw4FDSThsINvz0OZIF-7d-jfI5tl91rPAswgysY8Dql258bl7Oq1io2Iuw82tD15hSorL-EhUTDoDXTuSAwAaLerrCu8TUcj8M5-lZfJymh65aGLfQx9GYy9yDNoT6kFxXdFJb7WtSbfdt1DAr0RvdtPc8laIAJdhMB8VtKQvIpq06Np7JKugFr4W0gTJDywqsb8AM_6sqy-J7VI2lSkgyIo3wXlxXgDrjIwX7FemaB-wsz3MId50ys95RZ-QMSZy-wzh2Gcc7paMQAg7iOaESwyp_U8UPGRjS43YEwFqJCcOtL8Y1x_xayy5sngBJOMdSUE4foPu99cMGQg.jpg)
Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6563