group-telegram.com/data_analysis_ml/3055
Last Update:
🎓 Qwen2.5-Math-PRM-7B и Qwen2.5-Math-PRM-72B. PRM
В дополнение к математической модели вознаграждения за результат (ORM) Qwen2.5-Math-RM-72B, Qwen выпустили модели вознаграждения за процесс (PRM),
Они представляют собой новый подход к наблюдению за процессами в математических рассуждениях больших языковых моделей (LLM), направленный на выявление и устранение промежуточных ошибок в процессах рассуждений.
PRM демонстрируют впечатляющую производительность в оценке Best-of-N (BoN), так и более высокую эффективность нахождения ошибок в ProcessBench.
А вот интересная цитата из технического отчета:
"Мы разрабатываем механизм консенсусной фильтрации, который эффективно объединяет оценку МК с LLM-как-оценку, и выступаем за более комплексную систему оценки, которая объединяет метрики уровня ответа и уровня шага"
» https://huggingface.co/papers/2501.07301
BY Анализ данных (Data analysis)

Share with your friend now:
group-telegram.com/data_analysis_ml/3055