Telegram Group & Telegram Channel
Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/tech_priestess/1813
Create:
Last Update:

Поделюсь-ка я теперь с вами историей создания выпирающей бумаги "AI-generated text boundary detection with RoFT". Эта история кажется мне особенно примечательной потому что работа в этот раз чрезвычайно (по меркам ML-мира) затянулась и вообще походила на долгое и мучительное скатывание с лестницы научных неудач, во время которого я ободралась обо все самые острые и болючие ступеньки:
- методы, которые мне нравились, работали очень плохо;
- временами коллеги теряли энтузиазм, мы переходили к работе над другими задачами, а это исследование отправлялось в бэклог, откуда его было потом тяжело выковыривать;
- на одной из итераций статье поставили оценку 1 из 5 (!!!) 😬;
- ну и, разумеется, за все те долгие месяцы, пока исследование дорабатывалось и проходило все круги ада рецензирования, появились другие люди, которые заинтересовались данной задачей, что сделало нашу работу менее оригинальной. 😭
Каково же было мое удивление, когда я докатилась, так сказатб, до дна и обнаружила, что у подножия этой лестницы ждет красная ковровая дорожка... 🏆🤯но обо всем по порядку.

---

Все началось примерно с конца весны 2023 года, когда мы с коллегами заканчивали работать над статьей "Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts". В процессе поиска литературы по теме, кем-то из нас (возможно, моей тимлидой) была найдена статья "Real or Fake Text?: Investigating Human Ability to Detect Boundaries Between Human-Written and Machine-Generated Text" с описанием датасета RoFT. В этом датасете были текстовые примеры, каждый по 10 предложений: несколько первых предложений в примере были написаны человеком, а оставшиеся - сгенерированы моделькой. Авторы статьи показывали эти примеры людям и просили их отметить, с какого предложения начинается генерация. Далее они описали закономерности, мол, от чего зависит, хорошо человек решит данную задачу или плохо. Кстати, можете сами испытать свои способности в детекции сгенерированных текстов - зарегистрироваться на сайте авторов несложно:

https://www.roft.io/

Я с большим интересом изучила данный датасет. Он мне очень понравился, а еще на тот момент, несмотря на все старания, я не нашла ни одной статьи - за исключением разве что одного робкого студенческого препринта не очень хорошего качества - в которой бы серьезно рассматривалась задача автоматической детекции границы между человеческим текстом и машинным продолжением этого текста (напомню, в исходной статье про рофт эту границу детектировали люди, а не алгоритмы). Меня воодушевила идея поработать над такой новой и необычной задачей, над которой раньше почти никто не работал, и я начала пытаться по-всякому приспосабливать к ней свои любимые топологические методы. Изначально, это все планировалось как дополнительный раздел к статье про Intrinsic Dimension (в которой просто детектировалось, является ли весь текст написанным человеком или сгенерированным GPT), но быстро выяснилось, что детекция границы между человеческим и машинным текстом - это отдельная тема, требующая отдельной статьи. Поэтому перед дедлайном я на время отложила данное исследование и сосредоточилась на том, чтобы помочь коллегам довести до ума основную на тот момент статью.

#о_себе #наука

BY Техножрица 👩‍💻👩‍🏫👩‍🔧




Share with your friend now:
group-telegram.com/tech_priestess/1813

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders.
from us


Telegram Техножрица 👩‍💻👩‍🏫👩‍🔧
FROM American