Telegram Group & Telegram Channel
Поиск почти-дубликатов в большой коллекции текстов
#tutorial #nlp

https://yorko.github.io/2023/practical-near-dup-detection

Добрались руки написать тьюториал по этой вроде бы простой задаче. Есть много текстов, скажем, 5 миллионов. Как бы среди них найти почти-дубликаты так, чтоб это было:
1) легко, желательно без всякого ML
2) масштабируемо
3) без false positives
4) и чтоб разметки на входе тоже не надо было?

Почему брут-форс не подходит, думаю, понятно: 5 млн. объектов – это 12.5 трлн. пар, можно конечно хадуп потопить купюрами, но можно и умнее поступить.

Помню, ходил я с этим вопросом в ODS, и что-то советы мне не очень понравились, кто-то советует ElasticSearch запрягать, кто-то советует BERT-эмбеддинги в векторную базу сложить. И так я поковырялся да пришел к LSH и ее имплементации в Python – Datasketch. Вот про как раз тьюториал, можно брать и пользоваться.

К слову, я эту технику применил к научным статьям, и там целая россыпь интересных приложений вылезла, те же paper mills, salami-slicing (когда берешь свою длинную статью, делишь на части и публикуешь несколько мелких статей), simultaneous submissions и т.д.



group-telegram.com/new_yorko_times/146
Create:
Last Update:

Поиск почти-дубликатов в большой коллекции текстов
#tutorial #nlp

https://yorko.github.io/2023/practical-near-dup-detection

Добрались руки написать тьюториал по этой вроде бы простой задаче. Есть много текстов, скажем, 5 миллионов. Как бы среди них найти почти-дубликаты так, чтоб это было:
1) легко, желательно без всякого ML
2) масштабируемо
3) без false positives
4) и чтоб разметки на входе тоже не надо было?

Почему брут-форс не подходит, думаю, понятно: 5 млн. объектов – это 12.5 трлн. пар, можно конечно хадуп потопить купюрами, но можно и умнее поступить.

Помню, ходил я с этим вопросом в ODS, и что-то советы мне не очень понравились, кто-то советует ElasticSearch запрягать, кто-то советует BERT-эмбеддинги в векторную базу сложить. И так я поковырялся да пришел к LSH и ее имплементации в Python – Datasketch. Вот про как раз тьюториал, можно брать и пользоваться.

К слову, я эту технику применил к научным статьям, и там целая россыпь интересных приложений вылезла, те же paper mills, salami-slicing (когда берешь свою длинную статью, делишь на части и публикуешь несколько мелких статей), simultaneous submissions и т.д.

BY New Yorko Times


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/new_yorko_times/146

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice.
from us


Telegram New Yorko Times
FROM American