group-telegram.com/begtin/6246
Create:
Last Update:
Last Update:
Ещё один симпатичный движок для индексирования и поиска текста SeekStorm [1] умеет искать по тексту на разных языках, по скорости сравним с MeiliSearch, обещают многоязычность и внутри всё написано на Rust.
В примерах есть поиск по большим коллекциям PDF файлов, должен быть удобен для поиска, например, по базам научных статей которые почти всегда в PDF.
Можно попробовать с его помощью проиндексировать много миллионов документов. Десятки миллионов документов!
Но надо тестировать чтобы понять как он умеет инкрементально обрабатывать документов, сколько потребляет ресурсов и тд.
Ссылки:
[1] https://github.com/SeekStorm/SeekStorm
[2] https://deephn.org/?q=Data+indexing
#opensource #dataengineering
BY Ivan Begtin
Share with your friend now:
group-telegram.com/begtin/6246