Notice: file_put_contents(): Write of 4946 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13138 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Ivan Begtin | Telegram Webview: begtin/6345 -
Telegram Group & Telegram Channel
Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings



group-telegram.com/begtin/6345
Create:
Last Update:

Полезное чтение про данные, технологии и не только:
- Databases in 2024: A Year in Review [1] ежегодный обзор от Andy Pavlo про состояние и развитие СУБД и инструментов работы с данными. Ожидаемо про особенности лицензирования open source баз данных и про рост популярности DuckDB. Приятное чтение, хорошо структурированное, без маркетинга и рекламы.
- new DBMSs released in 2024 [2] список на dbdb.io, включает новые 17 СУБД появившиеся в 2024 году. Можно обратить внимание что большая их часть это key/value базы данных создаваемые как альтернативы Redis, после того как Redis сменили лицензию.
- Why AI Progress Is Increasingly Invisible [3] краткое изложение смысла статьи в том что прогресс в ИИ всё более невидим потому что большинство просто не обладает нужными знаниями чтобы его отслеживать (читать научные статьи, следить за бенчмарками и тд.) и то что основные измерения происходят внутри очень крупных создателей LLM и мы узнаем о прогрессе когда продукты уже появляются в доступе.
- The Well [4] два свежих открытых датасета на 15TB и 100TB с изображениями по физической симуляции и астрономии. Объёмы довольно большие и сравнимые с публикацией датасета ImageNet который активно использовался и используется для развития распознавания изображений
- DuckDB vs. coreutils [5] сравнение DuckDB и инструментов grep/awk/wc. Краткий вывод в том что на маленьких серверах DuckDB не в лидерах, а на больших на десктопах скорее да. Добавлю что раньше проскакивали сравнения что быстрее подсчитать число строк CSV файла через wc или DuckDB, и тогда тоже DuckDB выигрывал. Но вот эти тесты посложнее, и разные версии grep и wc существуют
- The Limits of Data [6] а вот это уже серьёзные размышления о том что данные не решают всех проблем и многое что учитывается с регулировании не измеряемо или измеряемо плохо через данные. Иначе говоря не всё можно поместить в дашборды на основе которых писать новые законы. Дискуссия не нова, но автор хорошо систематизировал и изложил ключевые аспекты.
- ORelly Technology Trends 2025 [7] много разных сторон технологий описано, я бы обратил внимание на снижающуюся популярность Java (-13%), Python (-5.3%), рост востребованности Rust (+9.6%) и Data engineering (+29%) и IT сертификация в целом снижается почти по всем направлениям. Тут надо не забывать что эти тренды ORelly считают по данным их обучающей платформы, а то есть выборка сильно меньше чем у похожих обзоров от Github или StackOverflow, но небесполезная в любом случае.

Ссылки:
[1] https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024-databases-retrospective.html
[2] https://dbdb.io/browse?start-year=2024
[3] https://time.com/7205359/why-ai-progress-is-increasingly-invisible/
[4] https://www.linkedin.com/feed/update/urn:li:activity:7269446402739515393/
[5] https://szarnyasg.org/posts/duckdb-vs-coreutils/
[6] https://issues.org/limits-of-data-nguyen/
[7] https://ae.oreilly.com/l/1009792/2024-12-06/332nf/1009792/1733515474UOvDN6IM/OReilly_Technology_Trends_for_2025.pdf

#databases #datasets #data #dataregulation #trends #readings

BY Ivan Begtin




Share with your friend now:
group-telegram.com/begtin/6345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes.
from ye


Telegram Ivan Begtin
FROM American