Notice: file_put_contents(): Write of 9057 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6350 -
Telegram Group & Telegram Channel
Продолжая рассуждения про OpenRefine, я какое-то время довольно быстро сделал движок mongorefine [1] в котором воспроизвёл некоторые ключевые функции OpenRefine в в виде библиотеки поверх MongoDB. Но после тестов выяснилось что хотя это и очень гибкая штука, но безбожно медленная.

К сравнению DuckDB или Polars не такие гибкие, зато работают с данными значительно большего объёма на десктопе.

У OpenRefine есть две ключевые фичи которые наиболее трудоёмки:
1. История всех изменений датасета. Это не так сложно как может показаться, но на большом датасете начинает кушать много дискового пространства.
2. UI для пользователя. Без UI, в виде библиотеки - эта задача проста. С UI - это становится не так просто. Вот я, например, нужными навыками для создания таких сложных пользовательских интерфейсов не обладаю.

Остальные фичи касаются интеграции с внешними сервисами, Wikidata и тд. Тут важнее интерфейс для плагинов, а не сразу сами плагины.

Я для такого рисовал схемку как можно было бы организовать правильно, но, пока забросил эту идею.

#opensource #datatools #thoughts



group-telegram.com/begtin/6350
Create:
Last Update:

Продолжая рассуждения про OpenRefine, я какое-то время довольно быстро сделал движок mongorefine [1] в котором воспроизвёл некоторые ключевые функции OpenRefine в в виде библиотеки поверх MongoDB. Но после тестов выяснилось что хотя это и очень гибкая штука, но безбожно медленная.

К сравнению DuckDB или Polars не такие гибкие, зато работают с данными значительно большего объёма на десктопе.

У OpenRefine есть две ключевые фичи которые наиболее трудоёмки:
1. История всех изменений датасета. Это не так сложно как может показаться, но на большом датасете начинает кушать много дискового пространства.
2. UI для пользователя. Без UI, в виде библиотеки - эта задача проста. С UI - это становится не так просто. Вот я, например, нужными навыками для создания таких сложных пользовательских интерфейсов не обладаю.

Остальные фичи касаются интеграции с внешними сервисами, Wikidata и тд. Тут важнее интерфейс для плагинов, а не сразу сами плагины.

Я для такого рисовал схемку как можно было бы организовать правильно, но, пока забросил эту идею.

#opensource #datatools #thoughts

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6350

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. READ MORE
from ru


Telegram Ivan Begtin
FROM American