Telegram Group & Telegram Channel
Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки



group-telegram.com/gulagdigital/3151
Create:
Last Update:

Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки

BY Цифровой геноцид


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gulagdigital/3151

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever."
from tw


Telegram Цифровой геноцид
FROM American