Telegram Group & Telegram Channel
Золотая эпоха баз данных

Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.

И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.

Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.

Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.

Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.

Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.

Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.

Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.

В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.

#databases #rdbms #datatools #thoughts



group-telegram.com/begtin/6365
Create:
Last Update:

Золотая эпоха баз данных

Я несколько раз уже слышал в выступлениях разработчиков систем управления базами данных (DBMS) о том что сейчас золотая эпоха их создания, и не только самих баз данных, но и инструментов, фреймворков и новых продуктов для работы с данными, всё что связано с дата инженерией.

И да, после размышлений я прихожу к тому же выводу. Число новых DBMS, как совершенно новых, так и использующих существующие движки в расширениями и оптимизацией, растёт стремительно.

Можно посмотреть, например, на базу Database of Databases чтобы увидеть сколько новых движков появляется ежегодно. Или можно посмотреть на аналитические DBMS в бенчмарке Clickbench. Там десятки конкурирующих инструментов и платформ и это ещё не все движки охвачены.

Аналогично с библиотеками с библиотеками работы с датафреймами. Их уже больше десятка в среде дата аналитиков работа с pandas это скорее унаследованный код чем быстрый код. Есть бенчмарки Database-like ops покрывает 13 библиотек (не самый актуальный, 4 летней давности) и полугодовой давности DataFrames at Scale Comparison с покрытием 4-х библиотек. И это только те бенчмарки которые нейтральные, а есть множество которые делают сами разработчики. Чаще не нейтрально, а подгоняя под особенности своей библиотеки.

Похожая ситуация с ETL/ELT инструментами, BI/OLAP/визуализацией данных, инструментами извлечения данных и так далее.

Это всё формирует нереальную конкуренцию, а вместе с ней усилия команд по непрерывному улучшению их продуктов. К примеру, согласно ClickHouse Versions Benchmark производительность ClickHouse с ранних версий до текущих выросла почти вдвое. А скорость DuckDB выросла от 3 до 10 раз, а и возможность работы с данными большего размера в 10 раз на том же оборудовании.

Всё это о том что технологии работы с данными развиваются очень быстро. Гораздо быстрее чем в предыдущие десятилетия. В них вкладывается и больше инвестиций, и в них больше потребности.

Всё это происходит параллельно с продолжающимся снижением стоимости терабайта, в облаке, и в приобретении дисков для личного хранения.

В итоге расшифровка фразы большие данные мертвы сводится к тому что стоимость работы с данными относительно большого объёма резко снижается, а обработка десятков терабайт структурированных данных на десктопе перестала быть невозможной.

#databases #rdbms #datatools #thoughts

BY Ivan Begtin


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/begtin/6365

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links.
from us


Telegram Ivan Begtin
FROM American