🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
group-telegram.com/ai_machinelearning_big_data/6561
Create:
Last Update:
Last Update:
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
BY Machinelearning
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WytWKYJkq6jbihN_wUY_fDPLC5PcnYbiWTrJDWSBHUI6WgZ9xYjlR4F5uJKV7aKE0U0abGH8WPqcE87eRUyz4J-xDH60JNCCFFF0u9tksigPzdIFwoempQCPZ3CE3G2PUsJJv8EQVBEcA0An2pEuEt8uw5NGkDRXLLhluf3eW_2ISWkNjkvrUnPdIZDAb2jZwyN7XAXWUCjysIrSSUV1klWBrNqxDY1T_qWEL2Gt-_lurm0gfItDUmpf36o6x2ZIZGYjtjl8b38sRTglwyRLCsZNNAk4FEQ983EqxrUmBSUjeiLyfO5Jih33go-UXRXA7D0yllmwOyVREqrcAWge3w.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/dAP3GcSRYKSbX6xGqlii457SJXpG2KCNMRMGLpMkRty2pJwMF919Fd8RDKfSmTxfp3GsrFWVqjHmarx20Qq-Rsr7EJPKmcxXPtZ400JzatZjz0dkwAuqGgBcPUgiOCmQoTv6ak7phGxMPbDQJZdRZHuE3WgKN3UMoymB8tme7fuQQFTcoGkeiUA-4T19qHcOrEPwgUIeDsbm-p9bLNB0qo5OxxpUMN6gg_0Joij4bhwx8FfqqdLQRydWulSoG7yF8gZmj8jBciiapahWhnGS9s3YO5QMPsbzDJA7B6Tny8TZJjJ3lxuX4ofx0N4-g8FygL8dPtDmbCkzBuQsWmN9JA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/AIVpLYpIk82txiZeD5OmWhhng7QTH59ni9H9aFOdVv7RwYi4NSVhzsOZnUGTH2XjQPFeYzGcLbavTo_-xXaq369S-LdBKWcT-6cRR95Q94nNKqu7RZIdEmMT3P7ZYWwO3SD5UOfYSir3ToZqGWacdfh7FotYRh8j-0GyLJssQRTa5GfKl_oNP-ibQGECrbWuCtqIzdgH8aPqsGKCmkmg20dBAdF3DXXSSrImFI5hjaAfacQDNnQ64bmw0Mbo8Yz_j0CceTnzntz-GykqEpk8Bgj0A2CgwWHiJg5wfuvLkdChRbz0nbdAK-y4WYL7BzSRYaUfrvaJlTuXEFYbLIQS2A.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/gEKa6xOVzrVQQPfkHlYRufEPQCoHOGA2ZWYbcpawRWAhrhqj5xig2gIpsxf9MU89OKyxQELRQWodhBIK0gxL-8w7g-GqGuQMvU8VQDL-c3PR4q_NVP-AwrzjwRNqoTRQLNRAg2o1Ep3bQQ-AN8XJXZ07msY6T9o_zBTF2WyFUeTuSvOC6a1YFPzU-2x8ZNdE7WygQbyBlJemJ_ZhBsXJvbL7O7QKqpRAe8PKXtFTIqfTm8ypVpH2V3EF1pBCyiGJB4wqJ9b-YXWht6FjYEAhw-zRhhj_42i24JastGmArwrn4DwEujxDq0LnoOKusM8s0Xm-B28dSU4Qh5iTPqFs2A.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/ZQ5rZy-APHJ-3jCoVhr2tqUs2rs4dH9gIiZvewig-FYxKRxQjp_oa-XKNfUqvmn_Ff3YE0OUg20dmahGOlAMZS6EIYOis4VdTLqBRDQ7F0xSySz6jurdO9Vuo7d7N3rhDBQOED-3W_e9syI1lo28mFL9D6rUue9rythy4kebjmrCxke1WCH0TYp0bhz1bVFPmhQdMkHtnKi-na42NuP1NWncWSOj7C1bFm7Y5XUHFdovECA2qbhL6nzmktW_obj39THV699yylBqCbK6bsens6kQ_Wzypj1d5VlWc1HFUx9fK0O_lCGcj6mRKGDRy7Xu47awJdaq6oD0oUNn1mSoQA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/rj14hXS8zbJN2YuCt83TN7uYde4PM3P6aNXyKMSd-2URCqyiznIROfJL-IzTKeDw-bNBGrxQxHGi3W3giqjq224KskGi_qOtfzbNkfRXjGqW5ExQBngcK7tsSI8drZNhkWDdRtZYuupRWF446pv4irEcTb4uFlfG-EkDh5a7k8-o1SRzjGYFFG_C7qkbPJAOStHuOhL_QB4h1V13yo9HBV7PUOvyyKQ9r028tYqSLhRhziRslIR-t4-Q-3qzI4rpSr3cRz8q86XfOqKj88RgcQks2K-G9j74ilfWCbOmLRJEW3WiJfhpyk5IY0wCcWHqHUNuiWGic00qrfUGXig9Jg.jpg)
Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6561