Я, кстати, искал примеры живых данных в формате Parquet которые бы публиковались целенаправленно как открытые данные и таки нашёл.
Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.
Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.
Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.
Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data
#opendata #europe #transport #airtraffic #datasets
Проект Open Performance Data Initiative (OPDI) [1] создан Евроконтролем в 2022 году для публикации данных об эффективности управления воздушным трафиком.
Данные на портале публикуются в виде Parquet файлов [2], с интервалами дат и инструкцией по их автоматической загрузке. По сути симуляция API.
Причём данных там немало. Данные о событиях за 10 дней собираются в Parquet файл размером до 150МБ что с учётом сжатия формата хранения раскрывается в сотни миллионов значений за три года.
Ссылки:
[1] https://www.opdi.aero
[2] https://www.opdi.aero/flight-event-data
#opendata #europe #transport #airtraffic #datasets
В рубрике закрытых российских данных Росавиация опубликовала общую статистику за 2023 год [1] и убрала с своего сайта все архивные данные статистики начиная с 2010 года в виде файлов и статистику на 2021-2022 годы. Они доступны теперь только в веб архив е [2]. Также на официальном сайте более недоступны статистика перевозки пассажиров и статистика перевоза грузов и почты по авиакомпаниям. Они, также, теперь есть только в архиве Интернет-архива [3] включая исторические данные с 2010 года.
Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.
Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.
Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
#government #russia #diigitalpreservation #airtraffic #statistics
Лично я отдельной новости о закрытии этих сведений не нашёл, но произошло это относительно недавно. Последний раз архивная копия фигурирует за апрель 2024 года.
Всё это к вопросу о том зачем надо архивировать содержимое российских госсайтов.
Ссылки:
[1] https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-stat-dannie/
[2] https://web.archive.org/web/20240227060215/https://favt.gov.ru/dejatelnost-vozdushnye-perevozki-osnovnye-proizvodstvennye-pokazateli-ga/
[3] https://web.archive.org/web/20240228103322/http://favt.gov.ru/dejatelnost-vozdushnye-perevozki-perevozki-passazhirov/
#government #russia #diigitalpreservation #airtraffic #statistics
В рубрике открытых данных о которых никто не знает порталы открытых данных по биоразнообразию, в том числе в России. Я писал об этом примерно 1.5 года назад [1], но можно и повторить и обновить.
Глобальный проект GBIF (Global Biodiversity Information Facility) [2] открытый каталог данных по биоразнообразию наполняется из более чем 361 инсталляции специального типа каталога данных называемого IPT (Integrated Publishing Toolkit) [3] который, как правило, развертывают университеты или их подразделения занимающиеся исследованиями в этой области.
Таких порталов много, 361 точно есть, и о них, как правило, мало кто знает за пределами этой научной дисциплины. Тем не менее это полноценные порталы с условиями использования, машиночитаемыми данными, свободными лицензиями и экспортом метаданных по стандарту DCAT.
Вот их обновлённый список в России:
- https://ipt.zin.ru
- http://altb.asu.ru/ipt/
- http://ipt.ugrasu.ru:8080/ipt/
- https://ipt.ipae.uran.ru/
- http://ib.komisc.ru:8088/ipt/
- https://gbif.ocean.ru/ipt/
- https://gbif.krc.karelia.ru/ipt/
- http://gbif.ru:8080/ipt/
Поэтому возвращаясь к вопросу о том есть ли в России раскрытие научных данных. Да, есть. Там где наука интегрирована в мировую. А где не интегрирована - там нет.
Кстати, многие данные в GBIF привязаны не к стране исследовательского центра, а к странам где проводились исследования. Многие данные по биоразнообразию Центральной Азии публиковались российскими исследователями.
Ссылки:
[1] https://www.group-telegram.com/begtin.com/4889
[2] https://www.gbif.org
[3] https://www.gbif.org/ipt
#opendata #biodiversity #biology #datacatalogs
Глобальный проект GBIF (Global Biodiversity Information Facility) [2] открытый каталог данных по биоразнообразию наполняется из более чем 361 инсталляции специального типа каталога данных называемого IPT (Integrated Publishing Toolkit) [3] который, как правило, развертывают университеты или их подразделения занимающиеся исследованиями в этой области.
Таких порталов много, 361 точно есть, и о них, как правило, мало кто знает за пределами этой научной дисциплины. Тем не менее это полноценные порталы с условиями использования, машиночитаемыми данными, свободными лицензиями и экспортом метаданных по стандарту DCAT.
Вот их обновлённый список в России:
- https://ipt.zin.ru
- http://altb.asu.ru/ipt/
- http://ipt.ugrasu.ru:8080/ipt/
- https://ipt.ipae.uran.ru/
- http://ib.komisc.ru:8088/ipt/
- https://gbif.ocean.ru/ipt/
- https://gbif.krc.karelia.ru/ipt/
- http://gbif.ru:8080/ipt/
Поэтому возвращаясь к вопросу о том есть ли в России раскрытие научных данных. Да, есть. Там где наука интегрирована в мировую. А где не интегрирована - там нет.
Кстати, многие данные в GBIF привязаны не к стране исследовательского центра, а к странам где проводились исследования. Многие данные по биоразнообразию Центральной Азии публиковались российскими исследователями.
Ссылки:
[1] https://www.group-telegram.com/begtin.com/4889
[2] https://www.gbif.org
[3] https://www.gbif.org/ipt
#opendata #biodiversity #biology #datacatalogs
Немного отвлекаясь от сугубо технических тем и возвращаясь к сбору геотреков граждан государством в РФ, а ранее историям про госозеро и про огосударствление биометрических данных.
Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.
Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.
В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.
Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.
Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.
Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.
P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.
#thoughts #russia #privacy
Помимо шуток и не шуток про тотальную слежку тут важно понимать что сама ситуация абсолютно уникальная. Я лично не знаю ни одну страну где государство де-факто национализировало бы данные бизнеса в таких количествах. Обычно всё происходит иначе и взаимоотношения гос-ва и дата-корпораций состоит из 3-х частей:
1) Корпорации и общественность лоббируют доступность тех или иных госданных которые предоставляются по разным моделям: открытые данные, доверенные операторы, покупка и продажа и тд.
2) Власти принуждают корпорации отдавать свои данные рынку, через антимонопольное давление, через программы по обмену данными (data sharing), через иные формы поощрения использования и предоставления данных
3) Спецслужбы/разведки разными непубличными способами взаимодействуют с крупнейшими сборщиками и операторами данных для решения госзадач в их ведении.
Собственно первые два типа взаимоотношений мы регулярно наблюдаем, про третий тип иногда происходят утечки, но в целом это то как мир развивается.
В России всё происходит иначе. Государство в лице фед. пр-ва шаг за шагом национализирует даже не просто базы данных, а целые блоки общественной жизни которые находятся у разного рода владельцев, дата корпораций и тд. и далее может раздавать эти данные кому надо. Скорее всего тем кто окажется ближе к лицам принимающающим решения.
Данные дата-корпораций становятся из их актива в государственный ресурс сдачи и раздачи. Мне это напоминает описанное в книгах Симона Гдальевича Кордонского, но перенесённое из физического пространства, в цифровое. Цифровые компании превращаются в цифровых бояр (или помещиков), оказываются во всё большей зависимости от федеральной власти, должны жить по определённым правилам игры не все из которых изложены нормативно.
Усиливаться эти цифровые бояре могут только путём приобретения адм. ресурса и укрупнением. Собственно подобное развитие отношений государство-бизнес, вместе с другими факторами, естественно ведёт к чеболизации всей этой сферы.
Честно говоря у меня каких-либо выводов нет, современный цифровой государственный патернализм стремительно набирает обороты, и пока какой-то большой цифровой катастрофы не произойдёт, то и шансов на то что этот процесс остановится или замедлится, нет.
P.S. Хочется добавить что такими темпами цифровая катастрофа неизбежна как один из чёрных лебедей который поломает цифровую инфраструктуру и что всё это выглядит довольно хрупко, но, думаю, что это и так очевидно.
#thoughts #russia #privacy
Продолжая подводить итоги года, статистика моего телеграм канала по подсчётам TgStat. Тут можно учитывать что 99% того что я пишу тут в телеграм канале - это режим публичных личных заметок, я сам свой же телеграм канал использую как справочник и как базу знаний, потому и стараюсь тщательно проставлять теги всем тем текстам которые потом рассчитываю найти.
И ещё про итоги года, самое время вспомнить про тренды открытости и доступности данных в мире.
1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.
2. Больше данных городов и муниципалитетов. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.
3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.
4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)
5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.
6. Расширение вклада биг техов в открытость данных. Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.
7. Усиление движения открытого доступа (Open Access). Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.
8. Сложность восприятия ИИ среди open data активистов. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.
#opendata #opengov #data #thoughts
1. Больше международных данных. Совершенно точно общедоступных данных становится больше, большая часть новых данных публикуются как открытые (под свободными) лицензиями. Например, на большинстве сайтов активных межгосударственных организаций разделы "Статистика" и "Исследования" переименовали в разделы "Данные" или "Данные и статистика" и "Данные и исследования". Я бы даже сказал что это стало нормой для почти всех структур входящих в ООН, к примеру.
2. Больше данных городов и муниципалитетов. Местные/городские данные один из приоритетов OGP, порталы данных городов появляются во все большем числе стран и наиболее активно создаются порталы геоданных. А также именно в городах чаще используют SaaS решения вроде OpenDataSoft и ArcGIS Hub.
3. Больше данных для машинного обучения. Этот тренд исключительно нарастает, помимо Kaggle и Hugging Face данные публикуют на многочисленных других порталах и сайтах компаний, исследовательских центров и так далее.
4. Постепенное проникновение дата инженерии и дата сайенс в открытые данные. Это происходит медленно но в последние пару лет особенно заметно и то что данные всё чаще доступны для массовой выгрузки (bulk download) и в форматах вроде parquet (данные из порталов OpenDataSoft, данные французского нац портала портала, данные нац портала Малайзии)
5. Больше особенно ценных данных. Инициатива High Value Datasets в Европейском союзе развивается и за его пределами. Появляется всё больше данных имеющих прямую измеренную пользу для экономики и всё более закрепляется политика государств что открытость этих данных несёт больше пользы обществу и бизнесу в частности чем торговля ими.
6. Расширение вклада биг техов в открытость данных. Это касается тех данных которые касаются общей инфраструктуры, данных полученных с помощью ИИ, данных необходимых для обучения LLM моделей. Чаще всего это не собственные данные, а чьи-то ещё переупакованные, обогащённые и тем не менее полезные. Например, данные в рамках Overture Maps.
7. Усиление движения открытого доступа (Open Access). Что выражается не только в том что повышается доступность научных статей, но и в появлении всё большего числа порталов исследовательских данных открытого доступа. Также становится больше специализированных порталов данных привязанных к конкретным научным дисциплинам и их специфике.
8. Сложность восприятия ИИ среди open data активистов. Главными бенефициарами открытости не только данных, но и любых других свободно распространяемых материалов оказываются big tech компании, а теперь ещё и OpenAI и лидеры рынка LLM моделей. На многих волонтеров начинает давить ощущение что именно биг техи, а не общество выигрывают от открытости данных.
#opendata #opengov #data #thoughts
Forwarded from Open Data Armenia
Под ёлочку анонсируем наш второй конкурс открытых данных (Open Data Armenia Contest)!
2 номинации: культурные (языковые, литературные) проекты и визуализации данных.
Общий призовой фонд – 3000 долл. США. Дедлайн подачи конкурсных проектов – 16 февраля.
Итоги конкурса подведем на Дне открытых данных в Армении в рамках международной Недели открытых данных в начале марта.
Все остальные подробности на сайте, доступном на 3-х языках.
Участвуйте и приглашайте друзей, интересующихся анализом данных, программированием, армянской культурой и историей, дизайнеров и всех, кто небезразличен к открытым данным и Армении. Можете поикать членов команды прямо в чате!
2 номинации: культурные (языковые, литературные) проекты и визуализации данных.
Общий призовой фонд – 3000 долл. США. Дедлайн подачи конкурсных проектов – 16 февраля.
Итоги конкурса подведем на Дне открытых данных в Армении в рамках международной Недели открытых данных в начале марта.
Все остальные подробности на сайте, доступном на 3-х языках.
Участвуйте и приглашайте друзей, интересующихся анализом данных, программированием, армянской культурой и историей, дизайнеров и всех, кто небезразличен к открытым данным и Армении. Можете поикать членов команды прямо в чате!
contest.opendata.am
RU Open Data Armenia Contest
Продолжая подводить итоги года, для меня лично в этом году важнейшим проектом был и останется в 2025 году - Dateno, поисковик по датасетам по всему миру который наша команда строила в 2024 году. Сейчас там 19 миллионов наборов данных, скоро будет больше, равно как и больше возможностей которые поисковик будет предоставлять.
Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.
За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование
Тут есть чем гордиться и много работы ещё предстоит.
1. Больше социально-экономических данных.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.
Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.
2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.
3. Больше интеграционных возможностей
У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.
4. Больше возможностей
Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.
Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)
#opendata #dateno #datasets #yearinreview
Dateno, отчасти, возник спонтанно. Мне давно хотелось сделать большой проект на весь мир по открытым данным, но первоначально амбиции были только создать универсальный реестр всех дата-ресурсов (реестр каталогов данных), а далее так получилось что на их основе оказалось не так сложно построить поисковую машину.
За 2024 год удалось:
- проиндексировать более 19 миллионов датасетов
- подготовить харвестеры для более чем 15 типов порталов открытых данных, индикаторов и геоданных
- реализовать API доступное пользователям Dateno
- собрать внушительную базу пользователей
- подготовить всё необходимое для индексации ещё нескольких десятков миллионов наборов данных
- обогатить собранные карточки датасетов метаданными о странах, тематиках, правах на использование
Тут есть чем гордиться и много работы ещё предстоит.
1. Больше социально-экономических данных.
Это касается индикаторов, временных рядов и иных данных которые чаще всего публикуются на порталах открытых данных и порталах индикаторов. Сейчас из запланированных крупных каталогов данных проиндексированы только около половины и дальше их будет больше.
Сейчас у Dateno есть небольшой уклон в такого рода данные поскольку они одни из наиболее востребованных и он может вырасти по мере индексации новых источников.
2. Значительно увеличить число наборов данных
Это очень простая задача если не беспокоиться о качестве данных, достаточно загрузить карточки датасетов из нескольких научных агрегаторов и это сразу добавить +20 миллионов наборов данных. Но, качество метаданных там ограничено только описанием, без ссылок на ресурсы к которым можно было бы обращаться напрямую. Такие датасеты несут куда меньше пользы для пользователей, хотя и из них в основном состоят поисковые индексы Google Dataset Search (GDS), OpenAIRE, BASE и ряда других поисковиков. Карточки датасетов без ресурсов позволяют резко нарастить индекс, но наличие ресурсов у карточки - это одна из наших внутренних метрик качества поискового индекса. Этот баланс качества и количества важен и он один из главных сдерживающих факторов роста индекса Dateno, тем не менее рост этот неизбежен.
3. Больше интеграционных возможностей
У Dateno уже есть API которым можно воспользоваться и далее это API будет развиваться в сторону его интеграции с инструментами для дата аналитиков и дата инженеров. Интеграция и API - это важные атрибуты любого сервиса, особенно для работы с данными. Невозможно всё придумать и сделать силами только одной команды и API позволяет другим улучшать и развивать свои продукты.
4. Больше возможностей
Сейчас Dateno позволяет только искать данные, но не проводить с ними какие-либо операции и это изменится. Не сразу и я не буду заранее говорить какие именно возможности появятся, но они будут.
Наша цель чтобы Dateno стал регулярным инструментом для каждого дата аналитика, дата инженера и дата сайентиста, так что работы ещё много)
#opendata #dateno #datasets #yearinreview
Forwarded from Национальный цифровой архив
Пишут что генеалогический сервис MyHeritage 31 декабря предупредил пользователей из России об удалении их учётных записей с 1 февраля 2025 года [1]. Весьма вероятно что это связано со штрафом в 6 млн рублей в отношении MyHeritage за отказ от локализации данных российских пользователей [2].
Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].
К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.
Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ
#genealogy #genetics #myheritage
Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].
К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.
Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ
#genealogy #genetics #myheritage
Очень много архивных данных
За выходные накопилось очень много что написать, но честно говоря я решил немного отдохнуть и отдых этот - это приведение в порядок личных архивов. Вернее они хоть и личные, но более менее рассортированные большие и малые датасеты, архивы веб-сайтов, изображений, медиа, данных замороженных или не стартовавших проектов, действительно личных файлов и много всего другого.
Но, есть время накапливать данные на любых носителях, а есть время приводить всё в порядок, складывать в NAS, резервировать критичное с защищённом облаке и так далее. Уверен что я не единственный кто занимается подобной уборкой когда есть свободное время.
Что из этого стоит записать на будущее:
1. Всячески избегать большого числа множества схожих, но очень малых файлов. Их архивация - это долго, больно и неправильно. Лучше ещё на этапе их получения/извлечения сразу складывать их в контейнеры вроде архивных файлов (zip, tar), баз данных (sqlite, duckdb) или монтируемых файловых систем вроде veracrypt. Потому что при всех рисках битых секторов, архивация множества мелких файлов очень медленный процесс.
2. Все чувствительные файлы всегда хранить в зашифрованных контейнерах (всё тот же veracrypt поможет). На случай повреждения таких файлов, держать несколько их копий. Вся работа с чувствительными данными также всегда должна быть внутри зашифрованных контейнеров.
3. Правило 3-2-1 для резервных копий очень простое и придумали его не дураки. Придерживаясь его можно избежать наиболее неприятных ситуаций с потерей данных.
4. Файлы веб-архивов неэффективны для сжатия. По умолчанию инструменты работы с WARC файлами поддерживают только если файлы не сжаты или сжаты gzip, а сами файлы вне зависимости от типа хранятся вперемешку. WARC устарел как контейнер, но хранение множества мелких файлов гораздо хуже и сопряжено с потерей метаданных.
5. Документация - это главный технический долг в отношении данных и архивов. Особенно когда восстанавливаешь архивы 20 и более летней давности. Иногда остаётся код с помощью которых данные были получены, иногда первичные данные, иногда даже описание из первоисточника, но полная прослеживаемость есть далеко не всегда.
6. Длинные не-латинизированные имена файлов - это зло. При копировании из NTFS в файловые системы Linux слишком часто возникают ошибки из-за длинных названий файлов на кириллице. Решается это переименованием или помещением файла в контейнер, но тем не менее
Впрочем, все выводы кажутся очевидными и касаются не только личных архивов. А многое требует осмысления как архивными данными работать, какие интерфейсы должны быть доступны. И документация, технический долг документации на данные безбрежен. Трудоёмкость её написания зачастую выше трудоёмкость сбора самих данных, но тут какого-то простого решения не наблюдается.
#datahoarding #thoughts #backups #data
За выходные накопилось очень много что написать, но честно говоря я решил немного отдохнуть и отдых этот - это приведение в порядок личных архивов. Вернее они хоть и личные, но более менее рассортированные большие и малые датасеты, архивы веб-сайтов, изображений, медиа, данных замороженных или не стартовавших проектов, действительно личных файлов и много всего другого.
Но, есть время накапливать данные на любых носителях, а есть время приводить всё в порядок, складывать в NAS, резервировать критичное с защищённом облаке и так далее. Уверен что я не единственный кто занимается подобной уборкой когда есть свободное время.
Что из этого стоит записать на будущее:
1. Всячески избегать большого числа множества схожих, но очень малых файлов. Их архивация - это долго, больно и неправильно. Лучше ещё на этапе их получения/извлечения сразу складывать их в контейнеры вроде архивных файлов (zip, tar), баз данных (sqlite, duckdb) или монтируемых файловых систем вроде veracrypt. Потому что при всех рисках битых секторов, архивация множества мелких файлов очень медленный процесс.
2. Все чувствительные файлы всегда хранить в зашифрованных контейнерах (всё тот же veracrypt поможет). На случай повреждения таких файлов, держать несколько их копий. Вся работа с чувствительными данными также всегда должна быть внутри зашифрованных контейнеров.
3. Правило 3-2-1 для резервных копий очень простое и придумали его не дураки. Придерживаясь его можно избежать наиболее неприятных ситуаций с потерей данных.
4. Файлы веб-архивов неэффективны для сжатия. По умолчанию инструменты работы с WARC файлами поддерживают только если файлы не сжаты или сжаты gzip, а сами файлы вне зависимости от типа хранятся вперемешку. WARC устарел как контейнер, но хранение множества мелких файлов гораздо хуже и сопряжено с потерей метаданных.
5. Документация - это главный технический долг в отношении данных и архивов. Особенно когда восстанавливаешь архивы 20 и более летней давности. Иногда остаётся код с помощью которых данные были получены, иногда первичные данные, иногда даже описание из первоисточника, но полная прослеживаемость есть далеко не всегда.
6. Длинные не-латинизированные имена файлов - это зло. При копировании из NTFS в файловые системы Linux слишком часто возникают ошибки из-за длинных названий файлов на кириллице. Решается это переименованием или помещением файла в контейнер, но тем не менее
Впрочем, все выводы кажутся очевидными и касаются не только личных архивов. А многое требует осмысления как архивными данными работать, какие интерфейсы должны быть доступны. И документация, технический долг документации на данные безбрежен. Трудоёмкость её написания зачастую выше трудоёмкость сбора самих данных, но тут какого-то простого решения не наблюдается.
#datahoarding #thoughts #backups #data
Подборка чтения про данные, технологии и не только:
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
- SOAR - крупнейший в мире атлас, каталог и архив карт, привязанных к карте мира. Более 712 тысяч карт по десяткам тематик, особенно интересны исторические карты, на мой взгляд. Поиск скорее неудобный, а вот отображение на карте мира очень неплохо [1]
- Open Science rewarded: Four Projects to receive the National Prize for Open Research Data [2] в Швейцарии есть премия Open Research Data (ORD) которой ежегодно награждаются исследователи делающие проекты и помогающие публиковать и развивать среду открытых исследовательских данных. Среди победителей такой проект как Pathoplexus [3] онлайн сервис и база данных человеческих патогенов включая геномные данные. Открытый код и открытые данные вместе. Проекты других победителей не менее интересны.
- OpenUK New Year Honours List [4] список персон отмеченных за вклад в открытый код и в открытые данные в Великобритании. Ежегодно публикуется НКО OpenUK одна из важных особенностей которой в том что финансируется она не госгрантами, а корпоративными спонсорами: Google, Github, Microsoft, Arm, Red Hat и другими.
- Web Almanac 2024 [5] ежегодный доклад о состоянии веба от HTTP Archive создан по итогам анализа 16.9М сайтов и 83ТБ данных, описан в 19 разделах включая разделы про структурированные данные, размеры веб страниц, шрифты, изображения, разметка и многое другое.
- What happens with legislative initiatives in the committees? [6] дата-сторителлинг в Парламенте Австрии с визуализацией законодательных инициатив, на немецком, но поддаётся автопереводу. К публикации приложены данные и код на языке R.
Ссылки:
[1] https://soar.earth/
[2] https://akademien-schweiz.ch/en/medien/press-releases/2024/offene-wissenschaft-ausgezeichnet-vier-projekte-erhalten-den-nationalen-preis-fur-offene-forschungsdaten/
[3] https://pathoplexus.org/
[4] https://openuk.uk/honours/
[5] https://almanac.httparchive.org/en/2024/
[6] https://www.parlament.gv.at/recherchieren/open-data/showcases/Was-passiert-mit-Gesetzesinitiativen-in-den-Ausschuessen
#opendata #opensource #openaccess #readings #geo #spatial
В рубрике как это устроено у них программа AirNow [1] по сбору информации и информированию граждан о качестве воздуха в Соединённых Штатах Америки. Ведётся федеральным агентством EPA и охватывает буквально все населённые пункты и графства, а также посольства в десятках стран по всему миру [2]. Если это не крупнейшая, то одна из крупнейших инициатив в мире по мониторингу качества воздуха по множеству критериев.
Для рядовых пользователей можно получить значения на сайте проекта, а для разработчиков и аналитиков доступны API [3] и данные [4]. Причём данные доступны для массовой выгрузки (можно скачать хоть всю базу целиком и сразу) с измерениями начиная с 1980 года.
Помимо данных посольств собираются ещё и данные от организацией партнеров по мониторингу, например, из Канады и Мексики. Поэтому, вместе с данными посольств, хотя и эта программа мониторинга действует внутри США, но частично охватывает и другие страны.
Ссылки:
[1] https://www.airnow.gov/
[2] https://www.airnow.gov/international/us-embassies-and-consulates/
[3] https://docs.airnowapi.org/
[4] https://www.epa.gov/outdoor-air-quality-data
#opendata #datasets #weather #airquality #usa
Для рядовых пользователей можно получить значения на сайте проекта, а для разработчиков и аналитиков доступны API [3] и данные [4]. Причём данные доступны для массовой выгрузки (можно скачать хоть всю базу целиком и сразу) с измерениями начиная с 1980 года.
Помимо данных посольств собираются ещё и данные от организацией партнеров по мониторингу, например, из Канады и Мексики. Поэтому, вместе с данными посольств, хотя и эта программа мониторинга действует внутри США, но частично охватывает и другие страны.
Ссылки:
[1] https://www.airnow.gov/
[2] https://www.airnow.gov/international/us-embassies-and-consulates/
[3] https://docs.airnowapi.org/
[4] https://www.epa.gov/outdoor-air-quality-data
#opendata #datasets #weather #airquality #usa
В рубрике интересных каталогов данных OpenAIP [1], открытая база и каталог данных по авиационной инфраструктуре.
Включает данные по воздушному пространству, аэропортам, препятствиям, контрольным пунктам и иным значимым сведениям почти по всем странам.
При этом детальность сильно варьируется, к примеру Европа описана максимально подробно, а Китай и Россия в основном в виде информации о аэропортах.
Но сама база велика, это:
- 46 тысяч аэропортов
- 23 тысячи записей о воздушном пространстве
- 335 тысяч препятствий
- 2 тысячи полей для авиамоделирования
- 3.7 тысячи навигационных маяков
и так далее, база хотя и не полна, но для открытого проекта весьма велика.
Данные из неё экспортируются в специальном разделе [2] по странам и в нескольких форматах включая специфичные для навигации и авиации SeeYou CUP, Openaip v1 AIP, OpenAIR и др. и это более 10 тысяч файлов данных (наборов данных скорее всего около 3-4 тысяч, поскольку одни и те же данные в могут быть в нескольких форматах. Собственно это и превращает проект из онлайн базы данных, в каталог данных где экспорт отдельных датасетов по странам вполне логичен.
Распространяется под свободной лицензией CC-BY-NC (свободное использование в некоммерческих целях). Часть кода доступно как открытый код [3]
Ссылки:
[1] https://www.openaip.net
[2] https://www.openaip.net/data/exports?page=1&limit=50&sortBy=createdAt&sortDesc=true
[3] https://github.com/openAIP
#aviation #opendata #datasets
Включает данные по воздушному пространству, аэропортам, препятствиям, контрольным пунктам и иным значимым сведениям почти по всем странам.
При этом детальность сильно варьируется, к примеру Европа описана максимально подробно, а Китай и Россия в основном в виде информации о аэропортах.
Но сама база велика, это:
- 46 тысяч аэропортов
- 23 тысячи записей о воздушном пространстве
- 335 тысяч препятствий
- 2 тысячи полей для авиамоделирования
- 3.7 тысячи навигационных маяков
и так далее, база хотя и не полна, но для открытого проекта весьма велика.
Данные из неё экспортируются в специальном разделе [2] по странам и в нескольких форматах включая специфичные для навигации и авиации SeeYou CUP, Openaip v1 AIP, OpenAIR и др. и это более 10 тысяч файлов данных (наборов данных скорее всего около 3-4 тысяч, поскольку одни и те же данные в могут быть в нескольких форматах. Собственно это и превращает проект из онлайн базы данных, в каталог данных где экспорт отдельных датасетов по странам вполне логичен.
Распространяется под свободной лицензией CC-BY-NC (свободное использование в некоммерческих целях). Часть кода доступно как открытый код [3]
Ссылки:
[1] https://www.openaip.net
[2] https://www.openaip.net/data/exports?page=1&limit=50&sortBy=createdAt&sortDesc=true
[3] https://github.com/openAIP
#aviation #opendata #datasets