Telegram Group Search
В рубрике как это устроено у них статистический портал Банка Франции Webstat [1]. Содержит более 40 тысяч временных рядов из 38 баз данных/наборов данных.

Важная особенность в том что показатели эти не только изнутри самого банка, но и из Евростата, Министерства экономики Франции, Банка Англии, Института статистики Франции и других внутренних и международных источников.

Сами временные ряды доступны в форматах CSV и XLSX, а также через открытое API [2]

Ссылки:
[1] https://webstat.banque-france.fr/en/
[2] https://webstat.banque-france.fr/en/pages/guide-migration-api/

#opendata #banking #france #statistics
В рубрике как это устроено у них французский проект по мониторингу всего кода созданного органами власти Франции, государственными научными учреждениями и в рамках госфинансирования (гранты) из французского бюджета data.code.gouv.fr [1].

Охватывает 82 источника, более 32 тысяч репозиториев, более 3 тысяч владельцев репозиториев

Построен на базе открытого кода ecosyste.ms проекта по мониторингу пакетов и репозиториев открытого кода.

Позволяет оценить масштабы государственного открытого кода во Франции и, при желании, выявить наиболее живые и востребованные проекты


Ссылки:
[1] https://data.code.gouv.fr/
[2] https://ecosyste.ms/

#opensource #france #opendata #sourcecode
Я тут было задумал написать лонгрид про стандарт SDMX по распространению статистических баз данных, о том чем он хорош и чем он плох и почему им нельзя пользоваться для публикации данных для бизнеса и необходимо использовать для взаимодействия с международными структурами. Но довольно быстро понял что сбиваюсь про состояние работы со статистическими данными в целом и о глобальном кризисе статистических служб.

А кризис то есть даже если его явно не обозначают и он в комбинации факторов которые можно описать как:
- рост запроса на оперативные данные с частотностью в неделю, день, час и неспособностью статслужб подобное обеспечить
- стремительный рост сбора альтернативных данных и более оперативных и специальных данных собираемых напрямую из ведомств и корпораций
- устаревание компетенций, возможно, безвозвратное из-за неконкурентного уровня зарплат для ИТ спецов, особенно в части работы с данными
- большие ограничения от национальной и международной бюрократии и их комбинации в части сбора и представления данных.
- рост ограничений на открытое распространение данных на фоне торговых войн, информационных войн и вооружённых конфликтов

Например, большая часть статслужб хотя и работают изначально с данными, но к периоду хайпа вокруг ИИ подошли с очень слабыми позициями. Лично я нашёл только у одной статистической службы в мире, у ISTAT в Италии, наличие ИИ помощника по работе с данными и тот был скорее про помощь в поиске данных, чем про инсайты на самих данных.

Поэтому всё это выглядит как уже затянувшийся кризис статистических служб и официальной статистики. Мягче в одних странах и жёстче в других.

#opendata #statistics #thoughts
Стремительно набирающий популярность продукт MindsDB [1] который позиционируется как Data Driven AI Agents и позволяет подключать любую базу данных и получать ответы на её основе. В том числе он предоставляет MCP сервер к которому можно подключить языковую модель.

Главный минус в том что лицензия а ля Elastic [2], но для большей части проектов это не критично.

Одновременно команда предоставляет корпоративный вариант продукта, уже с петабайтным масштабированием и коммерческим применением.

Но вообще сама идея что вот тебе данные и пусть над ними будет AI интерфейс в виде чата - это ещё один гроб в рынок не автоматизированных BI систем

Ссылки:
[1] https://mindsdb.com
[2] https://github.com/mindsdb/mindsdb

#opensource #ai #data
Про применение ИИ в отношении официальной статистики AI Assistant [1] в статслужбе Италии ISTAT. К слову разговоры про ИИ в официальной статистике идут давно, но неспешно. Например, в презентации из Института статистики Португалии за 2024 год [2] был обзор инициатив, но практически все они про машинное обучение.

Другой пример StatGPT [3] в котором вроде как много чего декларируется и ещё в 2023 году была презентация в UNECE, но добиться рабочих результатов мне не удалось.

У UNECE есть подборка кейсов применения ИИ для статистики [4].

Но в целом ощущения такие что в части статистики всё идет довольно медленно по применению ИИ и больше шансов на появление частных аналитических решений.

Ссылки:
[1] https://esploradati.istat.it/databrowser/#/en/dw/search?ai=true
[2] https://www.ine.pt/ngt_server/attachfileu.jsp?look_parentBoui=666235758&att_display=n&att_download=y
[3] https://statgpt.dialx.ai/
[4] https://unece.github.io/genAI/

#statistics #ai #data
Статья Teachers Are Not OK [1] в 404 Media о том как LLM повлияли на образование в США через взгляд учителей. Если вкратце, то взгляды апокалиптичные. Автор собрал полученные письма от учителей после предыдущей его статьи на тему LLM в образовании и получил ещё более яркую картину того как учителя смотрят на происходящее.

Кстати, стоит исходить из того что в США использование LLM студентами стало массовым довольно быстро, но это происходит по всему миру.

Уверен что многие читающие меня преподают, что скажете о своём опыте? Ваши студенты уже все используют LLM? И как меняется процесс обучения?

Ссылки:
[1] https://www.404media.co/teachers-are-not-ok-ai-chatgpt/

#ai #teaching #readings
В рубрике как это устроено у них репозитории открытых научных данных Dataverse [1] - это программный продукт с открытым кодом репозитория научных данных, разработанный в Гарварде и имеющий более 129 инсталляций в мире, используемый для публикации именно научных данных с учётом их специфики: выдачи DOI, поддержки OAI-PMH, расширенных метаданных, разных режимов доступа и так далее.

Dataverse используют сотни исследовательских центров, их гораздо больше чем инсталляций поскольку многие институции создают собственные пространства данных (dataverses) на национальных инсталляциях. Например, такими являются репозитории Borealis [2] в Канаде и DeiC [3] в Дании, а также национальный портал научных данных Франции [4]

Dataverse - это пример продукта для игры в длинную при публикации данных. Его внедрение требует определенного уровня подготовки исследователей, понимания основных концепций и привычки. Он конкурирует с использованием альтернатив вроде Zenodo, Figshare, OSF и многочисленных порталов научных результатов на базе продуктов Elsevier, а также ePrints и dSpace.


Ссылки:
[1] https://dataverse.org/
[2] https://borealisdata.ca/
[3] https://dataverse.deic.dk/
[4] https://entrepot.recherche.data.gouv.fr/

#opendata #openaccess #datacatalogs
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.

И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.

Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/

#opendata #geodata #datasets
В рубрике нерегулярного дата юмора мааленькая подборка мемов

#humour #dataengineering
В рубрике как это устроено у них портал визуализации статистики Саудовской Аравии DataSaudi [1]. Все данные представленные там происходят из официальной статистической службы страны и отличаются качественной визуальной подачей и разделением на тематики, регионы и их наглядное графическое отображение.

Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.

Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.

В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.

По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.

Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/

#dataviz #statistics #saudiarabia #datacatalogs
2025/06/28 19:19:39
Back to Top
HTML Embed Code: