Telegram Group & Telegram Channel
Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1813
Create:
Last Update:

Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1813

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips.
from ar


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American