Telegram Group & Telegram Channel
Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1813
Create:
Last Update:

Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1813

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Telegram Messenger Blocks Navalny Bot During Russian Election READ MORE
from no


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American