Telegram Group & Telegram Channel
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут



group-telegram.com/layercv/135
Create:
Last Update:

🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

BY The Layer


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/layercv/135

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. READ MORE You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth."
from sg


Telegram The Layer
FROM American