🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
group-telegram.com/ai_machinelearning_big_data/6561
Create:
Last Update:
Last Update:
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
BY Machinelearning
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/QKhX9ilb7SjJFE8EzVZqcnFuyFG4YP9tgF-L8iGmk_Xf3rcsSND-tfTr-g3nxKPrGSEKs2UAn7R-lX1bPkBWQBNA4Q50o1XRSK9l5vXdJoRiyTripHqyDmVAhztSrik3T8GqfNB3LS067h2L6ToFBkoLRYfHgkpjJsAuC2H7-SBDI8sBBAZoOtPxWyhwVjyyOpNd4N_rAn6bbirO3rKOnDQOgkBFYoO1bVE4t4W_v_DbuPfE4bIJ6kDVGf2_8SdzSC6O2X6fkKSRbSs3v_zQZaWe3u1QLF0XZjF47C9HviDwT9ZlVa3qL293PF74GnFVN8QrEoSIiCx5pQVbFvqMQw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/d7R_KKBm5u6FBX4Ow3gpMJgE581txMCzDTI34nfdKpyfc3GYfU4HUidk2Z_-dKRItX1KVyz0tJMbE98n3v_DSN-QTCd8LZtoS8TZZB7gEe_bNqHCrvDgo2XQV3VK30qTAkthzd4lYGsI3dzft5EBEHw0PThuPbY6S06k2QHQ78yeMQxL2BQ8jjKNx2-jgaH3FMclk181nNLTCxAo73LyukF4MdTjG0IIWntywUbWxomrUcbFtf6nShDBf7Qtepq9uHM5SSbhkGuJVVqpRfqSUovu3ow5fbf8pWBjIfggHQLlnx0bl4fmWQgZ3PwgEKNBqKuwdiPwD-nLGPuZfjBnrA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/YV0vC1HeKUId7LwDzluqSWPg1GCXWe5SX6S-cyvp-LMJi8ylRym9FkTY4uptw-bgKIrTEJg6-HAWNIo10ZA_iv9r71aPWZBLO5vJSYbQNEWyrTHTIOmAMIk8j10PY8Rcn088A7x5T_bHaO_jGWxpMiRIVYfjdI9Oc-CN_1_xNZZWF6MKIIIsdhL3PsvsqnWLEaUgr_9GM-yQZfNMfGvzrYqpomftHqmGn8hP-CaghJssJYRf-T9EkMhZOPGROLAD2wH7TDLdnQBH-K6SVKe3e-hr9OT1YHcli-yLngI7ZsnrGPRJaF0vn2HN_2YMCYF1cH8_GvSpAxmfm5cryxKxSw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/p6iuIa23ogKuj2iB5sfZ6BY0Ttd3dPSFFHi6QvDKJjHty9kioQyEqiR-MasjWT2pxtL_MN4OCLMQAL7-F5ztp_GEy_fC4Y4ZwB7kc2Oaz0M86uVGSdQFqPCXG-suI6Ht0PnQ6wTZIx7GpnDtGxodpyOxHXfAUfr5p0Ob3WrF-yrgPtAPU8YjwEzxz7ye0Tj5noqC5CzQhqyzvm395XG2vL1kFbOBSjtpXDNC0iAej6wsS3YqLNkoDP8fxU9pSh-9xdJMO6Od5Gs9P86WWRWrMKCGnYL3igRHYrdUhdkqvHtOV9m5yh-cGsn-vgxPhhew4Nmj_Kh1LoM39OyQYX9m9A.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/jm5ClF9ayxOSiGogZ8r0Np_RfqCE3J38hRn0pOdbolXcS3VqA4e2OjHD9LpooG1SRg-iRmHqbCnurdSVgYkY37G3fPuM4AHNs3VKiHE2kfN_rpiJ21bo5GIpRezNknRZHMMhIYE3hnAfxK8HRcTMk5WbjjB7rbIWTDVmAR8XieJvvHnah-2lhkGbMsG7gnltfcQNANczrfucOeb7MR51UOZ9T3a3Kus7PZGbluyQBS6c-4MWLHEWQi3RfXVmOhqLZGcBmDE1EwqrhDWwGpH_x70wUJK48626v2QZyZw2gRwGMJqVPfLvLc7wdY9jmfMwSwl1Eh0sX1AbdLXCn4-ywA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/fn-XNTCjWoQMwqNBXbgi3_ZbrrF1jrac7QTebLbyh03kQijMc_-y1Yt4LTPyoMZBQ201xHoQJKtMXRzK64oDVFtmbb1ICft1UG_GvzoM4DvG3AK1Tty-HA6n_0y-SU-Ov1H-fnLZqrca9CQADc6InUy2tWTB8mjI91KS4rzqsfZXzvGjNuu0LDHA0e1YHsQHZLgCxz5J2bkwNsVzxHnt5XUS3Q77om0_0DOBP7Y48imhEhQbQmLVqqqV1apGxFiS9zFkSKG4zrJ656P0xVqjMVerrMiViu0eJYIguzXIwJkKfFqm0_S_aGRsI0u27gJnagsQkFmuXFii3CkmiuHs2Q.jpg)
Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6561