group-telegram.com/ranepa_science/968
Last Update:
Открытый научный семинар Исследовательского центра искусственного интеллекта Президентской академии
Что обсудим?
Большие языковые модели (LLM) все чаще используются в автономных агентах и многоагентных системах для решения сложных задач, что делает их надежность критически важной проблемой. Однако большинство существующих бенчмарков сосредоточены на английском языке, что ограничивает их актуальность для других языков, особенно русского. Команда ИЦИИ представляет TrustGEN, первый бенчмарк для оценки доверенности LLM в задачах на русском языке, оценивая шесть измерений: правдивость, безопасность, справедливость, надежность, конфиденциальность и этика. Также в докладе будут рассмотрены результаты тестирования и актуальные проблемы оценки русскоязычных моделей.
Не смотря на существование множества фактологических бенчмарков, лишь немногие оценивают знания больших языковых моделей в русскоязычном домене, а особенно - в области гуманитарных знаний. Особый интерес представляет оценка ответов LLM на спорные или деликатные темы. Для решения этих проблем, команда ИЦИИ разработала бенчмарк SLAVA, включающий четырнадцать тысяч вопросов в русскоязычной области, охватывающих различные области гуманитарных знаний (история, обществознание, география, политологи), каждый вопрос которого оценивался по шкале чувствительности, отражающей отношение респондента к тематике вопроса. В докладе будут рассмотрены результаты тестирования бенчмарка на 42 современных LLM.
Онлайн-трансляция по ссылке.
@ranepa_expertise
#Академия_Наука