Telegram Group & Telegram Channel
Теория графов в проекте про дубликаты статей
#math #projects #research_integrity

Вдогонку к предыдущему посту: математическая формулировка задачи + эксперименты в подтверждение.

https://yorko.github.io/2023/scaling-laws-near-dups/

Формулы все еще не идеальны, но хотя бы не ASCII, не придется полоскать глаза йодом.

Пересказ без математики:

- почти-дубликаты обнаруживают кучу всякого интересного научного фрода
- замерял, что в Эльсивире примерно у 4% статей есть почти-дубликат (иначе – 96% статей оригинальны)
- перед тем как раскатывать решение на всех основных издателей, надо было понять, а что будет с процентом оригинальных статей в датасете из всех статей всех основных издателей
- предложил модель случайного графа для отношения "быть почти-дубликатом"
- модель предсказывает, что с увеличением выборки процент оригинальных статей падает экспоненциально
- в экспериментах модель неплохо подтвердилась
- то есть действительно, во "всей науке" можно обнаружить намного больше фрода, связанного с дубликатами статей, чем в рамках одного издателя, пусть и большого



group-telegram.com/new_yorko_times/185
Create:
Last Update:

Теория графов в проекте про дубликаты статей
#math #projects #research_integrity

Вдогонку к предыдущему посту: математическая формулировка задачи + эксперименты в подтверждение.

https://yorko.github.io/2023/scaling-laws-near-dups/

Формулы все еще не идеальны, но хотя бы не ASCII, не придется полоскать глаза йодом.

Пересказ без математики:

- почти-дубликаты обнаруживают кучу всякого интересного научного фрода
- замерял, что в Эльсивире примерно у 4% статей есть почти-дубликат (иначе – 96% статей оригинальны)
- перед тем как раскатывать решение на всех основных издателей, надо было понять, а что будет с процентом оригинальных статей в датасете из всех статей всех основных издателей
- предложил модель случайного графа для отношения "быть почти-дубликатом"
- модель предсказывает, что с увеличением выборки процент оригинальных статей падает экспоненциально
- в экспериментах модель неплохо подтвердилась
- то есть действительно, во "всей науке" можно обнаружить намного больше фрода, связанного с дубликатами статей, чем в рамках одного издателя, пусть и большого

BY New Yorko Times


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/new_yorko_times/185

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. "For Telegram, accountability has always been a problem, which is why it was so popular even before the full-scale war with far-right extremists and terrorists from all over the world," she told AFP from her safe house outside the Ukrainian capital. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30.
from id


Telegram New Yorko Times
FROM American