Telegram Group & Telegram Channel
Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1813
Create:
Last Update:

Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1813

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

I want a secure messaging app, should I use Telegram? He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted.
from jp


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American