Telegram Group & Telegram Channel
🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут



group-telegram.com/layercv/135
Create:
Last Update:

🚀 Опубликовали наш новый препринт: GigaCheck: Detecting LLM-generated Content 📄
Технология та же, что и в продукте, но перенесли на открытые модели и англоязычные тексты.

TL;DR Вынесли вообще всех.

Давайте по деталям.
В статье мы выделяем две подзадачи: определяем, написан ли текст человеком или генеративной моделью (LLM) и находим конкретные AI-интервалы 🤖

🔍 Первая задача — классификация текста — решается с помощью файнтюна LLM модели общего назначения. В исследовании мы использовали высокопроизводительную Mistral-7B, которая превосходит другие модели аналогичного размера во многих задачах.

🔎 Вторая задача — детекция AI-интервалов — решается нами с помощью модели DN-DAB-DETR, адаптированной из области компьютерного зрения. DETR модель обучается на фичах от зафайнтюненной LLM, однако, если данных для обучения LLM на классификацию недостаточно, используем фичи от исходной Mistral-7B-v0.3

Для подтверждения эффективности методов мы провели обширные эксперименты на различных датасетах. На пяти классификационных наборах данных обученные нами модели продемонстрировали SOTA результаты, а также показали высокие метрики в out-of-distribution экспериментах, работая с данными из доменов, отличающихся от встречавшихся в обучении, или от генераторов, не участвующих в создании обучающей выборки. Наша модель также успешно обошла Paraphrasing Attack🛡️

📊 Для оценки DETR детектора мы использовали четыре набора данных: RoFT, RoFT-chatgpt, CoAuthor и TriBERT.
Первые два датасета ориентированы на поиск границы между частями текста, написанными человеком и AI, второй содержит произвольное количество интервалов для каждого текста, третий — один или два интервала.
📝 Для корректного сравнения с другими работами мы переводим наши предсказания из интервального вида к предложениям.
🎉 Во всех экспериментах, включая out-of-domain, предложенный нами подход показал выдающиеся результаты!
До нас ещё никто не применял Detection Transformer для анализа сгенерированного текстового контента.

CV-шники идут в NLP 😎

Мы надеемся, что наш метод вдохновит будущих исследователей! 📈

📖 Статья тут
🌐 Лендинг тут
🤖 Телеграм-бот тут

BY The Layer

❌Photos not found?❌Click here to update cache.


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/layercv/135

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Telegram Messenger Blocks Navalny Bot During Russian Election
from us


Telegram The Layer
FROM American