group-telegram.com/gulagdigital/3151
Last Update:
Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе
Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1
Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.
Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности
Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.
В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)
Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода
Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .
Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки
BY Цифровой геноцид
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/gulagdigital/3151