group-telegram.com/new_yorko_times/185
Last Update:
Теория графов в проекте про дубликаты статей
#math #projects #research_integrity
Вдогонку к предыдущему посту: математическая формулировка задачи + эксперименты в подтверждение.
https://yorko.github.io/2023/scaling-laws-near-dups/
Формулы все еще не идеальны, но хотя бы не ASCII, не придется полоскать глаза йодом.
Пересказ без математики:
- почти-дубликаты обнаруживают кучу всякого интересного научного фрода
- замерял, что в Эльсивире примерно у 4% статей есть почти-дубликат (иначе – 96% статей оригинальны)
- перед тем как раскатывать решение на всех основных издателей, надо было понять, а что будет с процентом оригинальных статей в датасете из всех статей всех основных издателей
- предложил модель случайного графа для отношения "быть почти-дубликатом"
- модель предсказывает, что с увеличением выборки процент оригинальных статей падает экспоненциально
- в экспериментах модель неплохо подтвердилась
- то есть действительно, во "всей науке" можно обнаружить намного больше фрода, связанного с дубликатами статей, чем в рамках одного издателя, пусть и большого
BY New Yorko Times
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/new_yorko_times/185