group-telegram.com/tech_priestess/1079
Last Update:
Мы с коллегами выложили на архив новый препринт:
https://arxiv.org/abs/2311.08349
Он снова посвящен детекции искусственных текстов, но в экстремально сложной постановке.
В качестве примеров здесь рассматриваются тексты из десяти предложений, где первые несколько предложений написаны человеком, а оставшиеся - сгенерированы ML моделью (OPT, CTRL, GPT-2, GPT-3.5, chatGPT etc). Метка же, которую должен угадать алгоритм детекции - это номер предложения, с которого начинается генерация. В некоторых примерах генерации нет вообще (они полностью написаны человеком), и такие примеры также надо распознать правильно.
В общем, задача крайне сложная - из-за короткой длины примеров, необходимости угадывать место начала генерации и разнообразия генераторов и тематик текста (нам ведь нужно, чтобы классификатор ещё и переносился между разными генераторами и темами, то есть был кросс-доменным).
Я её решение начала с того, что установила бейзлайны (дообученная RoBERTa и предсказание самого распространенного класса), а потом стала пытаться применить к ней наш метод из статьи "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts" ( https://arxiv.org/abs/2306.04723 ), но прямолинейно "из коробки" он не сработал. В старой-то статье мы работали с бинарной классификацией и длинными текстами, а здесь совсем другая задача.
Я долго старалась, чтобы придумать какой-то новый способ применить концепцию внутренней размерности PH Dimension из старой статьи, и в итоге остановилась на конструкции, названной "PHD + time series". В ней по эмбеддингам текста в RoBERTa проходит скользящее окно, и размерность PHD считается внутри этого окна. Затем к ряду получившихся размерностей применяется SVM с Global Alignment Kernel ( https://dl.acm.org/doi/10.5555/3104482.3104599 ), который, в свою очередь, и предсказывает номер предложения, где начинается генерация. Этот метод действительно дал качество классификации лучше, чем примитивные предсказатели, но все ещё был намного хуже, чем RoBERTa classifier.
Тем временем, соавторы предложили другие способы работать с этой задачей, самые интересные из которых также вошли в статью.
Лучше всего сработал метод, основанный на перплексии, предложенный Таней Гайнцевой ( https://www.group-telegram.com/dl_stories ). In domain он оказался также слабее Роберты, но в cross domain на некоторых парах доменов оказался существенно лучше. Это интересно, потому что в бинарной постановке задачи (детекция полностью сгенерированных текстов) методы, основанные на прямолинейном применении перплексии обычно хуже, чем RoBERTa classifier. И это ещё раз демонстрирует то, как в разных постановках преимущество могут получать разные методы.
В процессе исследования, мы тщательно проанализировали используемый в статье датасет (он называется RoFT - Real or Fake text) и изучили причины того, почему разные детекторы работают на нем хорошо или плохо в кросс-доменной постановке.
Я уделила особое внимание тому, что предложения, сгенерированные разными моделями и написанные на разные тематики, имеют сильно отличающееся распределение длин. Я добавила в таблицу результатов dummy классификатор, который принимает на вход только длины предложений, не зная об их содержании, и показала, что даже такой классификатор может давать какой-то результат на in domain, при этом будучи совершенно бесполезным на cross-domain. Это наводит на мысль, что и другие классификаторы могут переобучаться на длины предложений и давать какой-то результат на in domain, не понимая, чем на самом деле сгенерированный текст отличается от настоящего.
Соавторы же, в свою очередь, добавили в статью анализ confusion matrices и другие интересные наблюдения.
Препринт является промежуточным результатом, который нужно будет ещё доработать и дополнить путем применения наших методов к другим датасетам (например, https://github.com/mbzuai-nlp/SemEval2024-task8 ).
Тем не менее, я очень рада тому, что удалось довести исследование до текущего этапа, и выражаю благодарность всем соавторам, которые согласились поучаствовать в исследовании.
#объяснения_статей #детекция_искусственных_текстов