Telegram Group & Telegram Channel
Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки



group-telegram.com/gulagdigital/3151
Create:
Last Update:

Цифровой геноцид ревью: Что нового в UX? Гонзо-новости UX и HCI статей в январе

Bridging HCI and AI Research for the Evaluation of Conversational SE Assistants
https://arxiv.org/html/2502.07956v1

Поскольку большие языковые модели (LLM) все чаще применяются в программной инженерии, в последнее время в форме разговорных помощников, обеспечение соответствия этих технологий потребностям разработчиков имеет важное значение. Ограничения традиционных методов оценки инструментов на основе LLM, ориентированных на человека, в масштабе повышают потребность в автоматической оценке.

Исследования пользователей являются дорогостоящими, трудоемкими и сложными для масштабирования. Инструменты разработки на основе LLM, и в частности разговорные помощники, страдают от отсутствия надежных методов оценки . LLM очень чувствительны к формулировке своих промтов или инструкций, и проектирование инструмента на основе LLM требует много «инженерии промтов” для достижения желаемой функциональности

Высокая стоимость исследований пользователей привела к появлению альтернативного метода оценки в области HCI: В подходах LLM-as-a-Judge LLM используется в качестве «судьи», заменяя реальных людей для автоматической оценки текстов, сгенерированных LLM. LLM-as-a-Judge все чаще используется практиками для оценки инструментов на основе LLM, специфичных для предметной области, и может быть полезен также в различных задачах разработки.

В общем-то в статье обсуждаются искусственные пользователи на основе нейронок и предлагается сравнить с методом LLM-as-a-Judge. Предполагается даже объединение этих двух методов
Недавно исследователи изучали использование LLM для имитации людей и генерации синтетических исследовательских данных. Хямяляйнен и др. обнаружили, что GPT-3 способен производить реалистичные качественные данные, существенно перекрывающиеся с данными, генерируемыми людьми, и даже дающие дополнительные идеи. Имитированные LLM-взаимодействия пользователей оказались реалистичными и полезными для оценки эффектов выбора дизайна во время прототипирования платформ социальных сетей. Сян и др. использовали LLM для имитации взаимодействия пользователя с интерфейсом и обнаружили, что это полезно для выявления пограничных случаев, генерируя значительное количество отзывов об удобстве использования, не идентифицированных пользователями-людьми. Эти исследования показывают, что имитированные пользователи могут быть использованы для качественной аналитики (R4), как позволяя дизайнерам проверять взаимодействия, так и напрямую генерируя обратную связь. ….При использовании имитированных пользователей с широким спектром персон дизайнеры могут поддерживать разнообразие, выявляя ошибки инклюзивности [30] (R2). Искусственные пользователи используются для оценок таких же искусственных рабочих ответов ЛЛМ в виде копилотов или прототипов интерфейсов. Кроме того, это дает хорошие возможности для инклюзии (Еще раз - это про взаимодействие с рабочими ассистентами и агентами на ИИ, не коммерческие исследования пользователей - прим. мое)

Но пока не ясно удастся ли получать количественные данные таким образом и есть ограничения этого метода

Чжэн и др. ввели термин «LLM-as-a-Judge», ссылаясь на подходы, в которых LLM используются в качестве «судей» для оценки текстов, созданных LLM. Эти подходы существуют в нескольких формах, включая оценку одного результата LLM или выбор лучшего из пары результатов . Эти суждения могут быть сделаны на основе набора критериев, что означает, что LLM-as-a-Judge может быть использован для предоставления широкого спектра количественных показателей (R3). Оценка, предоставляемая подходами LLM-as-a-Judge, часто хорошо согласуется с человеческими суждениями, в том числе для различных задач SE . В дополнение к их высокой масштабируемости и низкой стоимости по сравнению с человеческой оценкой, это привело к тому, что LLM-as-a-Judge все чаще используется на практике для оценки инструментов на основе LLM .

Кроме того, судьям LLM может быть поручено предоставить объяснение своей оценки

BY Цифровой геноцид


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gulagdigital/3151

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Anastasia Vlasova/Getty Images Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off.
from in


Telegram Цифровой геноцид
FROM American