Telegram Group & Telegram Channel
Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки



group-telegram.com/gulagdigital/3151
Create:
Last Update:

Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки

BY Цифровой геноцид


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gulagdigital/3151

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from fr


Telegram Цифровой геноцид
FROM American