Notice: file_put_contents(): Write of 730 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 13018 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
The Layer | Telegram Webview: layercv/135 -
Telegram Group & Telegram Channel
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут



group-telegram.com/layercv/135
Create:
Last Update:

🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

BY The Layer


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/layercv/135

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. On Telegram’s website, it says that Pavel Durov “supports Telegram financially and ideologically while Nikolai (Duvov)’s input is technological.” Currently, the Telegram team is based in Dubai, having moved around from Berlin, London and Singapore after departing Russia. Meanwhile, the company which owns Telegram is registered in the British Virgin Islands. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones.
from us


Telegram The Layer
FROM American