Telegram Group & Telegram Channel
Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings



group-telegram.com/begtin/6345
Create:
Last Update:

Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Some people used the platform to organize ahead of the storming of the U.S. Capitol in January 2021, and last month Senator Mark Warner sent a letter to Durov urging him to curb Russian information operations on Telegram. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world."
from no


Telegram Ivan Begtin
FROM American