Notice: file_put_contents(): Write of 4947 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13139 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6345 -
Telegram Group & Telegram Channel
Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings



group-telegram.com/begtin/6345
Create:
Last Update:

Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon."
from ca


Telegram Ivan Begtin
FROM American