Telegram Group & Telegram Channel
Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1813
Create:
Last Update:

Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1813

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. For tech stocks, “the main thing is yields,” Essaye said. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from tr


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American