Telegram Group & Telegram Channel
Золотая эпоха баз данных

Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.

И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.

Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.

Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.

Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.

Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.

Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.

Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.

В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.

#databases #rdbms #datatools #thoughts



group-telegram.com/begtin/6365
Create:
Last Update:

Золотая эпоха баз данных

Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.

И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.

Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.

Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.

Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.

Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.

Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.

Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.

В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.

#databases #rdbms #datatools #thoughts

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6365

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

NEWS Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge.
from sg


Telegram Ivan Begtin
FROM American