Для тех кто хочет поработать с относительно небольшими открытыми данными в области культуры по ссылке доступен слепок Госкаталога музейного фонда РФ в формате Parquet (3GB) преобразованный из слепка датасета в 78GB с портала данных Минкультуры.
Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.
Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;
Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
#opendata #russia #parquet #duckdb
Для тех кто захочет поделать интересных запросов к этим данным вот тут их примеры которые я приводил на семинаре и которые можно делать с помощью DuckDB.
Подчеркну что с файлами Parquet и DuckDB работать можно на недорогих ноутбуках, настольных компьютерах и тд., загружать эти данные на сервер нет необходимости.
Серия запросов по объединению наиболее тяжелых экспонатов по весу и получению отсортированного списка предметов по весу в любом измерении
1. copy (select name, museum.name, weight/1000 as weight from 'data.parquet' where weightUnit = '{"name":"килограммы"}' order by weight desc) to 'heavy_kg_to_tonn.csv';
2. copy (select name, museum.name, weight/100000 as weight from 'data.parquet' where weightUnit = '{"name":"граммы"}' order by weight desc) to 'heavy_gramm.csv';
3. copy (select name, museum.name, weight from 'data.parquet' where weightUnit = '{"name":"тонны"}' order by weight desc) to 'heavy_tonn.csv';
4. select * from read_csv(['heavy_kg_to_tonn.csv', 'heavy_tonn.csv']) order by weight desc;
Рейтинг музеев по качеству заполнения описания (поле description) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where len(description) = 0 group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
Рейтинг музеев по качеству заполнения invNumber (инвентарный номер) во внесённых элементах каталога
select t1.name as name, c as num, total, c*100.0/total as share from (select museum.name as name, count(id) as c from 'data.parquet' where invNumber = '' group by museum.name) as t1 join (select museum.name as name, count(id) as total from 'data.parquet' group by museum.name) as t2 on t1.name = t2.name order by share desc;
#opendata #russia #parquet #duckdb
hubofdata.ru
Государственный каталог музейного фонда в формате Parquet - Хаб открытых данных
Оригинальные данные опубликованы по адресу https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits В этом наборе данных была взята версия 3 от 23.09.2023 и преобразована из формата JSONS в...
В продолжение разговора про обновлённую стратегию развития статистики и Росстата в РФ, очень в тему публикация в блоге Всемирного банка о мотивации и компетенции сотрудников статистических служб.
Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.
Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.
И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.
Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.
Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.
Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.
Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.
В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.
Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.
#regulation #statistics #policies #thoughts
Там приведены результаты опросов сотрудников статслужб Латинской америки и Карибских стран, результаты такие что хотя 78% сотрудников готовы хорошо работать, но только 46% планируют остаться работать в статведомстве. Там, кстати, есть ссылка на опрос удовлетворенности госслужащих зарплатой и у статистиков она особенно низка.
Иначе говоря платят специалистам в этой области мало, чем они объективно недовольны и из-за чего компетенции страдают так как специалисты лучшей квалификации идут в бизнес и в другие госорганы.
И это один из наиболее ключевых вопросов во всех реформах статслужб в мире и на которых пока мало хороших решений.
Что я вижу из происходящего в мире:
1. Маргинализация статистических служб в странах где изначально официальная статистика была сомнительной. Например, некоторые африканские страны. И использование альтернативных источников для получения нужных показателей/индикаторов потенциальными их потребителями.
2. Попытки обновления статистических служб с сохранение их идентификации именно в такой роли. Как правило усложнённые как раз недофинансированием и отсутствием компетенций.
3. Трансформация статистических служб в государственные службы данных и дальнейшая их реформа с точки зрения обеспечения инфраструктуры работы и доступа к данным для госорганов, бизнеса и граждан.
Всё это сводится, в том числе, к вопросу лидерства подобных организаций. И для полноценной реформы статистики здесь есть всего 3 сценария:
1) Главой стат службы должен быть профессионал в области статистики с видением реформ и готовностью их проводить (из того что я знаю наиболее знающие люди в этой области на такую должность просто не пойдут).
2) Главой стат службы должен быть профессионал в области государственных данных и трансформировать службу в службу данных (в РФ не наблюдается такой тренд)
3) Присоединить (не подчинить, а присоединить) Росстат к Минцифры РФ (не выглядит пока реалистично)
4) Главой стат службы должен быть человек с сильным внутриполитическим влиянием который уже привлечёт остальных профессионалов в статистике и работе с данными.
Что такое этот четвертый вариант? Это как если бы главой статслужбы назначили Германа Грефа или Мишустин со словами "я устал, я мухожух" уходя с поста премьера лично занялся бы реформой Росстата, благо у него опыт автоматизации ФНС был вполне релевантный.
Вот тогда можно будет поверить что будут реальные и серьёзные изменения в российской официальной статистике.
В других странах ситуация другая. Во многих развивающихся странах статслужбы крайне бедны и многие их информационные системы были созданы в рамках поддержки от Всемирного банка и других международных организаций.
Тем не менее я лично ставлю на то что неизбежно официальные статистические службы будут или трансформироваться или интегрироваться в государственные органы отвечающие за политику работы с данными и их предоставление.
#regulation #statistics #policies #thoughts
Telegram
Ivan Begtin
Я обещал написать развернутое мнение про свежую стратегию развития статистики и Росстата до 2030 года. Когда-нибудь доберусь до того чтобы написать прям подробно-подробно, но понял что это уже ближе к работе чем прокомментировать документ и фактически придётся…
В продолжение моих расхваливаний в адрес Parquet и DuckDB, приведу ещё один пример. Для задача Dateno я в последние дни анализирую большой датасет индикаторов статистики Всемирного банка из data.worldbank.org.
И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.
После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.
Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.
Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.
Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.
#opendata #duckdb #statistics #parquet #worldbank
И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.
После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.
Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.
Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.
Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.
#opendata #duckdb #statistics #parquet #worldbank
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
• Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
• Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
• Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.
С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.
Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action
#opendata #data #readings
Open Source Initiative
Reimagining data for Open Source AI: A call to action
The Open Source Initiative (OSI) and Open Future have published a white paper: “Data Governance in Open Source AI: Enabling Responsible and Systematic Access.” This document is the culmination of a global co-design process, enriched by insights from a vibrant…
Написал в рассылку текст Работаем с дата фреймами. Почему не Pandas и какие альтернативы? [1] про альтернативы Pandas такие как Polars, Dask, DuckdB и cuDF. А также там же подборка ссылок на большое число параллельно развивающихся инструментов.
А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.
Ссылки:
[1] https://begtin.com.substack.com/p/pandas
#opensource #dataengineering #dataframes #datatools
А я повторю тезис что Pandas нужный, полезный и важный, но легаси инструмент у которого есть уже много высокопроизводительных альтернатив значительно упрощающих работу с данными большого объёма на недорогих устройствах.
Ссылки:
[1] https://begtin.com.substack.com/p/pandas
#opensource #dataengineering #dataframes #datatools
Ivan’s Begtin Newsletter on digital, open and preserved government
Работаем с дата фреймами. Почему не Pandas и какие альтернативы?
Самый популярный инструмент для работы с аналитиков в последние годы - это программная библиотека Pandas для Python.
В рубрике как это устроено у них Европейский проект Europeana [1] является не только общедоступной поисковой системой по культурному наследию Евросоюза, но и одним из крупнейших источников открытых данных используемых исследователями и просто заинтересованными пользователями.
В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.
В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.
Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].
Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.
Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en
#opendata #culture #europe #europeana
В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.
В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.
Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].
Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.
Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en
#opendata #culture #europe #europeana
В рубрике как это устроено у них Jewish Heritage Network (JHN) голландская технологическая некоммерческая организация со специализацией на еврейском культурном наследии публикует 58 наборов данных из 33 источников общим объёмов в 834+ тысячи записей [1]. Большая часть этих данных доступна в европейском проекте Europeana, практически ко всем из них есть открытое общедоступное REST API. Часть датасетов доступны для полной выгрузки (bulk download), другие через API интерфейсы OAI-PMH.
Финансируется проект несколькими фонда поддержки еврейской культуры и из бюджета ЕС (проект Europeana).
Ссылки:
[1] https://jhn.ngo/research/#judaica_datasets
#opendata #digitalheritage #archives
Финансируется проект несколькими фонда поддержки еврейской культуры и из бюджета ЕС (проект Europeana).
Ссылки:
[1] https://jhn.ngo/research/#judaica_datasets
#opendata #digitalheritage #archives
Китайский стартап Deepseek [1] с его 3-й версией языковой модели показал что можно создать конкурентную языковую модель за $6 миллионов и ограниченными ресурсами, всего 10 тысяч процессоров Nvidia H100s [2]. Сейчас в США акции AI компаний упали, особенно Nvidia, а также приложение DeepSeek в топе скачиваний. Оно уже явно сбоит, невозможно зарегистрироваться через их сайт, ошибки одна за другой, но это явно из-за массового спроса.
Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.
Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].
Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.
Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
#ai #ml #llm
Сама модель сделана небольшой командой AI исследователей, а Deepseek ранее был малоизвестным китайским стартапом.
Что важно так это то что их код открыт под свободной лицензией MIT и они опубликовали полный технический отчёт о том как они добились такого результата [3].
Если так дальше пойдет то совершенно то $500 миллиардов в проект Stargate США резко уменьшится в цене. Может быть даже очень резко, как и ожидаемые доходы AI лидеров.
Ссылки:
[1] https://www.deepseek.com
[2] https://www.axios.com/2025/01/27/deepseek-ai-model-china-openai-rival
[3] https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
#ai #ml #llm
Я вот тут попытался поискать в Perplexity данные по культурному наследию Армении и... если долго искать находишь самого себя. В первом же результате каталог открытых данных Армении data.opendata.am
С одной стороны приятно, а с другой что-то печально.
P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.
#opendata #armenia #digitalpreservation #culture
С одной стороны приятно, а с другой что-то печально.
P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.
#opendata #armenia #digitalpreservation #culture
Global Fishing Watch
Для тех кто любит рыбку и всё что с ней связано, то как, кто и когда её ловят проект Global Fishing Watch [1] предоставляет интерактивную карту и наборы данных по рыболовной отрасли с возможностью отслеживать какие суда и поскольку часов ловят рыбу и где они это делают.
Данные дают в динамике, предоставляют API [2]. Охватывают только океаны и моря, в том смысле что, к примеру, Каспийского моря и Великих озёр в США/Канаде там нет.
Для выгрузки датасетов нужна регистрация, а сами данные под лицензией CC BY-NC 4.0, в основном.
Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/
#opendata #fishing #openprojects #gisdata #geodata
Для тех кто любит рыбку и всё что с ней связано, то как, кто и когда её ловят проект Global Fishing Watch [1] предоставляет интерактивную карту и наборы данных по рыболовной отрасли с возможностью отслеживать какие суда и поскольку часов ловят рыбу и где они это делают.
Данные дают в динамике, предоставляют API [2]. Охватывают только океаны и моря, в том смысле что, к примеру, Каспийского моря и Великих озёр в США/Канаде там нет.
Для выгрузки датасетов нужна регистрация, а сами данные под лицензией CC BY-NC 4.0, в основном.
Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/
#opendata #fishing #openprojects #gisdata #geodata
Поделюсь личной болью поиска людей, вне зависимости от того где искать сейчас глобально на рынке огромное число junior'ов и они откликаются на любую вакансию. Буквально пишешь в требованиях что ищешь миддла, а получаешь сотни резюме джуниоров. А если публикуешь вакансию на джуниор'ов то тоже сотня резюме, только ещё и написанных с ошибками, присланных без темы письма, с пустыми аккаунтами на Github'е и не минимальным, а просто полностью отсутствующим опыте.
У меня вот сейчас есть потребность как минимум в одном инженере по контролю качества (data quality engineer) для Dateno (это не в РФ, не налоговый резидент РФ, но желательно и не резидент ЕС) тоже и я уже опасаюсь того как размещать такую вакансию. Просто завалят резюме. Но видимо придётся скоро оформлять вакансию и готовиться читать много резюме, большую часть которых сразу отсеивать.
И очень много аутстафферов, агентств и людей работающих через аутстафф агенства, их куда сложнее интегрировать в команду. И непонятно зачем нужен посредник? Нужен ли?
А как Вы сейчас ищете людей особенно миддл разработчиков и дата инженеров и как набираете джуниоров? Какие курсы в плюс, какие в минус? Как ускоряете чтение резюме?
#thoughts #it
У меня вот сейчас есть потребность как минимум в одном инженере по контролю качества (data quality engineer) для Dateno (это не в РФ, не налоговый резидент РФ, но желательно и не резидент ЕС) тоже и я уже опасаюсь того как размещать такую вакансию. Просто завалят резюме. Но видимо придётся скоро оформлять вакансию и готовиться читать много резюме, большую часть которых сразу отсеивать.
И очень много аутстафферов, агентств и людей работающих через аутстафф агенства, их куда сложнее интегрировать в команду. И непонятно зачем нужен посредник? Нужен ли?
А как Вы сейчас ищете людей особенно миддл разработчиков и дата инженеров и как набираете джуниоров? Какие курсы в плюс, какие в минус? Как ускоряете чтение резюме?
#thoughts #it
В рубрике интересных продуктов для работы с данными PuppyGraph [1] (Щенячий граф) стартап и open-source продукт для взаимодействия с SQL базами данных с помощью графовых языков запросов таких как Gremlin и openCypher.
Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.
Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.
Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc
#opensource #rdbms #datatools
Основной лозунг под которым продукт продвигают это Query your relational data as a graph in real-time. Zero ETL. Главный акцент тут на том что графовые базы данных неудобны всегда были тем что туда необходимо было переносить данные из реляционных баз и это означало увеличение объёмов хранения и затраты ресурсов на обработку данных. А тут движок позволяет работать с условным PostgreSQL напрямую запросами.
Open source версия доступна под лицензией Apache 2.0 [2]. Команда в ноябре 2024 г. подняла $5 миллионов инвестиций [3], а сам продукт в первой версии появился ещё в марте 2024 года.
Ссылки:
[1] https://www.puppygraph.com
[2] https://github.com/puppygraph/puppygraph-query
[3] https://www.puppygraph.com/blog/puppygraph-raises-5-million-in-seed-funding-led-by-defy-vc
#opensource #rdbms #datatools
В рубрике как это устроено у них Japan Search [1] поисковая система по архивам Японии охватывает десятки баз данных национальной библиографии, галерей, музеев, архивов, библиотек, каталогов научных работ, архивов фотографий и мультимедиа и многие других коллекций.
Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.
Всего же через поиск доступен 31 миллион цифровых объектов.
У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.
Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html
#opendata #digitalheritage #datasets #japan
Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.
Всего же через поиск доступен 31 миллион цифровых объектов.
У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.
Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html
#opendata #digitalheritage #datasets #japan