Telegram Group & Telegram Channel
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут



group-telegram.com/layercv/135
Create:
Last Update:

🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

BY The Layer


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/layercv/135

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks.
from no


Telegram The Layer
FROM American