Telegram Group & Telegram Channel
Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки



group-telegram.com/gulagdigital/3151
Create:
Last Update:

Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки

BY Цифровой геноцид


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gulagdigital/3151

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Founder Pavel Durov says tech is meant to set you free WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from ye


Telegram Цифровой геноцид
FROM American