🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
group-telegram.com/ai_machinelearning_big_data/6559
Create:
Last Update:
Last Update:
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone git@github.com:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
BY Machinelearning
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/k6nRop-62H1a_lJAszL_LIyuoDR9LBPNwCy7Dt8h3GeVMe1AF4mynw49rKPqNZOfkvh_RaMw1dwtdqlmNRKPycEArND-fYq838LxZjAShxiFhHG8uGja8mCLn_4SmgPmGu3cTP592-H0GLkaTDCASrsP8Np1QN5PCfq6Xcnj40s24osq53NFc5gF8rCvHbhbkxxtzuT1Cs12t1C9JAkGBwiwbOtNlihgZqqCoAyCYZtzrGiuSjLGnLkTDAhjrb61GaNQHbUshIISMyWku0dy-lGAzX0LjVDjG0nETBi11tpAuzxCcydgjysvWyb84hC3Z8uNP0_p7MioaQK8xU3eSQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/bZjLhmLUiEHPHdo5E-HjfbWQ67RPUzEXY-zo1P-0KhqlRs-v-famviMgB5URxvcXuL-WqXpkVX7pSlQyrMMpH-3-hDThPGTC5sqERI5lr-hVvcUcC1Z6mU-lod12qhnNgjWrp4Ck2u8kD4QLlcXx8iEgQH18NLVsA0lJTw_GR8vK5P5JfZo5xMTLwDRy4KrhM9RiI0Mt_6r8nZUlTHz31emJ-EC9dPcoinZjJ2JY5JyY1sqgd0mA-cC1Vlrk_nFODACsO7vx5NSADCnaf-pVBToXx8XhxsBeSthjiDqd71o-y4do6Dn9stzlHfCYeGLWIGZ0lKEO5dHvL_oHR2IMJA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/jLnM1jTTaId2UxLVVt8PzGDZ5zO3hKM02gM37UberztHU9P89GCi6ZX4S41yFpqKapx7JWXelSX6EPFlauL-N4ia7C5GFtk9YA-hjk4R0M_oQNoSha_WH1giJonuAjWyPk3-kccFQfL9R3sh20PHVXeUf6UfJMv4Yuk5khbqXYM3M6-kZBVEfgkD8lYd6xkKmj58alLHnfibBkRvyEpvHYdhE5xR0g3OnvUOth6a4YslDYiBUCWvgCdm62DExbSw58PaqdNt67GCsZSXbV168x_3xF7Jg_hAxwQuovEPp5UNF8JUJGiIKPfwD-QMJrhoCd66SFjupGbmkq0udmxXug.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Z6zsM16JCGmSmwc0ePqeeI_pEwCarCYFCLYlBdKH2aSW87Dz66SzeL7KPbF4P31nNZ5a4hGYOeijS0fUEUxOs3ScV43BlAw21NuENBaxeq9ymyz3xmeSLWA_gMdHSvpoP9ZqKUr00sMLUX-jGlEJVw6nsK2ad8EAxQpoQdvqSpEmrj8-fsZGoISRfCkzipAXAu2XwpiRDLJ2pl4doiPavU784JjYr4lcL-R7QY-Yln9FJgpw_nY9lyOg6EqBw1mnVlp1hIWngoWX4_K3WGRElDdj0PgHD86Va3Ncc58e_5Fb8eZClOIIeP9MKcAwIVsXOqcyAY0vpMBXTCN4vZEV8Q.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/psISX4JvNJV9N66tZOhlIeny_7Q5dmHBwXfgoBHx6cyU92YJPEaxsQsvveCvnqdtNmS6n-OJG2A1tib_RtzLjIJ1YWbMaMKUP1I4PZ6X1T1T8ovRbyc-FhPUqrC0CoDEfS2FNQwvdT1r0NEgLfZ7xGI3rGv03314AGsQYoYsBeDrECW3kBTHjILmE4V_WDJJ2qpfIweqgfPTxvw83OFYILWUTu5peFCKFn5fM_GbvpQuhKWwSM4BpU43olkgSTE8nM7c3SIDOk3lH1uoudPJmzcszSBo-wKIvXUqtpGypC0Mop7OQhYhmMUabeXpnhpvenIwddXtNynZyF1UAX3W-g.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/XfLBleKMZcSMr6e1MMcqKBdiN4K2PiBs0MIihCG82IIVYd5jgnatngEkEjJqEjfdWtXs5g3h6VJJHzkjjM4Xw98E3KD8Jf637NHuSautvPPRjE9ZxWqPewHEHToeEkjU-W4IaB-ytsdd6CCRr4p6rjEoIzDGLgG0Kc1XXyTnBNUpzXgicsCAfWM-gCBtrVuc1OwpgLqCyqUSKFZeOyNF62a7ZwMNnI_WZz70xAY0O5_lk2MNWl0mMS4apNnzwemRm9WeuRew0_zXgZSri7Zt37jeov7gHcOjMawKNRmB9vWS_edoDwnWt-gTVzZe1ZQeNVdLTf12Nz9zWkVbkwrPTw.jpg)
Share with your friend now:
group-telegram.com/ai_machinelearning_big_data/6559