В рубрике как это устроено у них официальные сайты метеорологических служб 20 африканских стран работают на одном стандартизированном продукте с открытым кодом Climweb [1], например, это метеослужбы Бенина [2] и Нигера [3] и многих других, а также планируется что ещё в 6 странах метеослужбы перейдут на это ПО.
В чём его особенность:
- открытый код на базе Python + Wagtail
- совместная разработка офиса WMO и NORCAP, это норвежский центр по гуманитарному развитию при Правительстве Норвегии
- унифицированное, правда, недокументированное API
- под лицензией MIT
Все эти порталы работают в связке с общей инфраструктурой WMO и провайдерами данных, в ряде стран установлены, также, сервисы Wis2Box собирающие данные со станций наблюдения и отдающие их по стандартным протоколам OGC для геоданных. Про Wis2Box я ранее писал и, похоже, их распространение сильно продвинулось на последние 1.5 года. Как каталоги данных они очень невелики, а как открытые климатические данные любопытны.
Ссылки:
[1] https://github.com/wmo-raf/climweb
[2] https://www.meteobenin.bj/
[3] https://www.niger-meteo.ne/
#opendata #api #climate #opensource
В чём его особенность:
- открытый код на базе Python + Wagtail
- совместная разработка офиса WMO и NORCAP, это норвежский центр по гуманитарному развитию при Правительстве Норвегии
- унифицированное, правда, недокументированное API
- под лицензией MIT
Все эти порталы работают в связке с общей инфраструктурой WMO и провайдерами данных, в ряде стран установлены, также, сервисы Wis2Box собирающие данные со станций наблюдения и отдающие их по стандартным протоколам OGC для геоданных. Про Wis2Box я ранее писал и, похоже, их распространение сильно продвинулось на последние 1.5 года. Как каталоги данных они очень невелики, а как открытые климатические данные любопытны.
Ссылки:
[1] https://github.com/wmo-raf/climweb
[2] https://www.meteobenin.bj/
[3] https://www.niger-meteo.ne/
#opendata #api #climate #opensource
В рубрике доступных открытых геоданных в России:
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы
#opendata #geodata #datasets #maps
- Открытые данные Енисей-ГИС - каталог геоданных, включая Shape файлы и точки подключения к сервисам WMS в ГИС Красноярского края - Енисей ГИС. Набрров данных несколько десятков и несколько десятков слоёв карт доступных через WMS сервисы
- Геопортал СВКНИИ ДВО РАН каталог геоданных на базе Esri Geoportal, включает 34 ресурса в виде ссылок на слои карт в разных ArcGIS серверах.
- Общедоступный ArcGIS сервер Мурманской области - над ним ещё был геопортал, но он закрылся или переехал, а сервисы со слоями карт ArcGIS REST остались
- Геосервер Института водных и экологических проблем СО РАН - слои карт в виде WMS и WFS сервисов
- Геосервер ФГБУ "ДВНИГМИ" - геоданные по морским территориям Дальнего Востока, также WMS и WFS сервисы
- Геосервер Центра по проблемам экологии и продуктивности лесов РА - слои карты и WMS/WFS сервисы
#opendata #geodata #datasets #maps
В рубрике как это устроено у них каталог данных океанографических кампаний Франции [1] публикуемых Ifremer, исследовательским центром Франции по изучению океанов.
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
Всего более 355 тысяч наборов данных из которых общедоступны чуть менее 21 тысячи и остальные доступны по запросу. Самые ранние датасеты датируются 1909 годом.
Из плюсов;
- большой объём опубликованных наборов данных
- наличие API, хотя и недокументированного
- возможность поиска данных в выбранной географической территории
- свободные лицензии CC-BY на все открытые данные
- данные не только французских кампаний, но и иных финансируемых Францией или полученных от организаций партнеров
Из минусов:
- у датасетов нет DOI, нет постоянных ссылок
- выгрузка даже открытых данных идёт через "корзину", когда ты выбираешь датасеты, оставляешь контактные данные и лишь потом можешь скачать их
Ссылки:
[1] https://donnees-campagnes.flotteoceanographique.fr
#opendata #datasets #data #oceans #france
Глядя на продолжающийся поток стартапов применяющий ИИ к разным областям работы с данными, наблюдаю явный перекос в сторону ликвидации профессии корпоративных дата аналитиков как класса и замена их "умными дашбордами" и "ИИ агентами".
Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.
Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.
Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.
И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.
Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.
А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.
#thoughts #data #dataengineering
Ссылки приводить не буду, дабы не рекламировать кого-то без необходимости, но тенденция явная и заметная, а также хорошо понимания потенциальными клиентами, руководством компаний и иными лицами принимающими решения.
Из того что я вижу так то что ИИ реально может исключить аналитиков из цепочки создания аналитических продуктов и оперативной аналитики, но, чем больше это будет происходить тем острее была и остаётся проблема качества данных.
Качество данных и вся "чёрная работа" связанная с их подготовкой, очисткой, валидацией и тд. очень плохо автоматизируется и вот тут-то стартапов возникает куда меньше. Во первых потому что это внутренняя кухня работы с данными и не на поверхности, а во вторых поскольку у технических руководителей почти всегда значительно меньшие бюджеты.
И, конечно же, в третьих, потенциальные решения и продукты не так очевидны. Я лично вообще пока не вижу каких-то быстрореализуемых "идей на поверхности" как автоматизировать создание хороших наборов и баз данных.
Поэтому мои предсказания что работа аналитиков со временем будет распадаться на:
1. Аналитиков по качеству и подготовке данных
2. Программистов и проектировщиков аналитических AI агентов и дашбордов
3. Предметных специалистов которые ещё и могут немного в аналитику.
А вот у дата инженеров всё проще, пока мало что меняется, только объёмы данных растут.
#thoughts #data #dataengineering
В рубрике как это устроено у них, согласно реестру Dateno в Великобритании не менее 174 каталогов данных создано университетами и другими исследовательскими центрами для публикации исследовательских данных. Большинство из них используют для этого сервис Figshare и такие продукты как Elsvier Pure и ePrints. В большинстве случаев публикация данных сочетается с раскрытием других результатов научной деятельности: статьями, изображениями, приложениями к статьям, книгами и так далее.
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
Это больше чем общее число каталогов данных во многих странах. Пока лишь малая их часть, 13 каталогов индексируется в Dateno где собрано чуть менее 140 тысяч наборов данных поскольку значительная часть этих каталогов не предоставляют простых интерфейсов для индексирования данных. Figshare - это коммерческий провайдер, а многие другие каталоги поддерживают только стандарт OAI-PHM имеющий существенные ограничения, он не позволяет индексировать записи определённого типа (dataset) и не даёт простой возможности индексации ресурсов (файлов) связанных с наборами данных.
Это не является ограничением для таких агрегаторов как OpenAIRE поскольку они собирают все результаты научной деятельности, но ограничивает Dateno индексация в котором ограничена только наборами данных.
Второй важный фактор - это то что в последние годы многие научные данные загружаются сразу в облачные сервисы вроде data.mendeley.com или zenodo.org, а в институциональных репозиториях указаны лишь ссылки на них и, опять же, отсутствуют ссылки на файлы, остаются только ссылки на карточки датасетов в других ресурсах.
Однако даже при этом цифры в Dateno сопоставимы с индексом OpenAIRE где к Великобритании отнесены 168 тысяч наборов данных, но и среди них многое что помечено как "Dataset" там является просто цифровыми объектами отличающимися от научных статей, например, фотографии и презентации.
Можно было бы OpenAIRE использовать как референсный ориентир при индексировании наборов данных, но и он, увы, сильно неполон.
По моим оценкам всего в Великобритании от 300 до 500 тысяч исследовательских наборов данных рассеянных по сотням репозиториям научных данных и облачным сервисам. Постепенно они будут проиндексированы в Dateno, а пока можно констатировать что индексировать каталоги открытых данных и базы статистики гораздо проще в плане количества проиндексированных наборов данных.
#thoughts #dateno #datasets
В качестве регулярных напоминаний:
- я пишу про данные и технологии в этом телеграм канале @begtin на русском языке
- также на русском языке я пишу лонгриды в Substack
- на английском я снова регулярно пишу LinkedIn и реже в Medium
- по теме цифровой архивации есть телеграм @ruarxive где я и не только я пишу про цифровую архивацию и исчезновение цифровых ресурсов
#writings
- я пишу про данные и технологии в этом телеграм канале @begtin на русском языке
- также на русском языке я пишу лонгриды в Substack
- на английском я снова регулярно пишу LinkedIn и реже в Medium
- по теме цифровой архивации есть телеграм @ruarxive где я и не только я пишу про цифровую архивацию и исчезновение цифровых ресурсов
#writings
Подробная статья о состоянии поиска Google с точки зрения долгосрочных инвестиций [1]. Всё, казалось бы, очевидно что ИИ имеет очень сильный потенциал трансформировать Google Search и то проблема в изначальной рекламной модели Google как основе монетизации. Про это говорят много и всё активнее, на фоне разговоров что потенциально некоторые вендоры мобильных устройств могут перейти на другие поисковые системы вроде того же Perplexity. Но тут автор излагает всё довольно подробно и не даёт прогноза что у Google поисковый бизнес поломается, но говорит что сильно поменяется.
В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.
Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.
Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.
Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.
Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?
#thoughts #search #google #ai
В том числе сравнивая ИИ поиск с кнопкой "I'm feeling lucky" когда пользователь получал результат сразу, без просмотра рекламных ссылок и то что Google терял около $100 миллионов в год в 2010 году из-за этой кнопки.
Почитать полезно чтобы задуматься о будущей трансформации Google и потенциальных изменениях бизнес модели поиска.
Можно с этой же точки зрения посмотреть на Яндекс, но у Яндекса, по сравнению с Google есть то потенциальное преимущество что постепенно из поискового индекса Google российские сайты выпадают и происходит это по разным причинам, но, в основном, из-за ограничений доступа из не-российских подсетей. Это ограничение бывает мягким в виде запретов в robots.txt, более жестким через ограничения на CDN и очень жёсткими через блокировки всех подсетей не относящихся к российской юрисдикции. В случае Google замерить это сложно, но в случае того же Интернет-архива я это наблюдаю уже несколько лет.
Что, впрочем, поможет лишь отчасти если ряд мобильных вендоров (Samsung, Huawei) отдадут приоритет AI поиску в своих устройствах.
Ссылки:
[1] https://www.speedwellmemos.com/p/google-shut-the-door-on-competition?
#thoughts #search #google #ai
Speedwellmemos
Google Shut the Door on Competition, AI Swung it Back Open
Assessing Risks to Google's Business Model and How AI Imapcts the Competitive Landscape
242 миллиарда токенов, 384 миллиона страниц, 983 тысячи книг на 254 языках в новом наборе данных для машинного обучения Institutional Books 1.0 [1] опубликованном Библиотекой Гарварда на HuggingFace.
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Датасет находится в раннем доступе и требует согласится на его использование только в некоммерческих целях.
К нему, также, доступен технический отчет с подробностями [2]. Большая часть книг в этом наборе данных относятся к 19 и 20 векам, 43% всех токенов относятся к английскому языку, также много относящихся к немецкому 17.3%, французскому 14%, итальянскому 4%, латыни 3.19%, испанскому 2.24%, русскому 2.05%.
Ссылки:
[1] https://huggingface.co/datasets/institutional/institutional-books-1.0
[2] https://arxiv.org/abs/2506.08300
#opendata #datasets #data #ai
Когда появится AGI (Общий искусственный интеллект)? Коллекция предсказаний от тех кто создаёт ИИ моделей и ряда экспертов [1]
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Хорошая новость - есть шанс что при нашей жизни
Плохая новость - определённо есть шанс что при нашей жизни
У меня вот тоже есть очень мрачные прогнозы:
- многие страны поменяют ядерные доктрины,
- всё что касается датацентров для AGI начнут секретить
- вероятность терактов в отношении датацентров, ведущих ИИ компаний и их сотрудников резко вырастет.
Вообще судя по тому что происходит сейчас в мире, появление AGI мира не принесёт, а вот войны могут выйти на другой уровень
Ссылки:
[1] https://sherwood.news/tech/gi-artificial-general-intelligence-when-predictions/
#preditions #ai
Выводят ли боты с искусственным интеллектом культурное наследие из строя? [1] свежий доклад Макла Вайнберга из GLASB e-Lab посвящённый тому что ИИ боты нарушают работу открытых культурных ресурсов.
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
И это куда серьёзнее чем ранее существовавшие проблемы открытого доступа, теперь ИИ боты напрямую злоупотребляют открытостью и от них отбиваются с помощью многочисленных CDN и иных сервисов блокирующих любое индексирование сайтов и проверяющих доступ к материалам на "человечность" запрашивающего.
Почитать стоит о том что теперь поддержание открытых коллекций стоит существенно дороже и о разных мерах применяемых к ботам, самые радикальные из этих мер - это блокировка по географии, когда блокируются некоторые страны. Например, я знаю довольно много онлайн ресурсов которые более не открываются с IP адресов относимых к России и к Китаю именно по этой причине.
При всех полезных сторонах ИИ, есть реальная угроза того что многие общедоступные культурные ресурсы будут уходить в режим доступа только после авторизации и их доступность будет существенно снижаться.
#opendata #culturalheritage #readings
Ещё один доступный источник общедоступных данных монитогринга погоды/климата. Инсталляция WIS 2.0 в Кыргызстане [1]. WIS 2.0 это открытый сервис агргегирующий данные из метеостанций страны и отдающий по стандартизированным протоколам OGC. Этот продукт с открытым кодом распространяет Всемирная метеорологическая организация и он развернут уже более чем в 35 странах мира.
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Внутри WIS 2.0 используется Pygeoapi, доступно API для получения метаданных и данных наблюдения.
Конкретно вы Кыргызстане данные собираются с 36 метеостанций.
На постсоветском пространстве аналогичные сервисы есть в Казахстане [2] и Российской Федерации [3]
Ссылки:
[1] http://wis2box.meteo.kg/
[2] https://wis2box.kazhydromet.kz/
[3] http://wis2box.mecom.ru
#opendata #openapi #api #geodata #datasets #kyrgyzstan
Forwarded from Случайное блуждание
Доля расходов на продовольствие в расходах населения
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк
Неделю назад коллеги выложили очень интересные наборы данных, которые кропотливо собирал Сбериндекс. Есть там и уникальные наборы — например, по структуре расходов населения в большинстве регионов страны (кроме украинского приграничья, Ингушетии, Бурятии и отдельных районов других регионов).
Более половины средств расходуют на продовольствие жители Костромской, Кировской областей и смежных районов (очень характерно, что в этом ареале также выше всего доля населения старше трудоспособного возраста). Вообще в основной полосе расселения работает правило, что чем севернее район, тем больше там будут тратить на еду (потому что возможностей вырастить что-то самостоятельно очень немного).
Меньше всего тратят на еду в Москве и Санкт-Петербурге (и в принципе в крупных городах с высокими доходами), а также на Кавказе (поскольку климат позволяет существенную часть еды производить самостоятельно). В большинстве же муниципалитетов на продовольствие уходит около 40-45% расходов.
Хайрез в комментариях + работаем над тем, чтобы переложить муниципальные карты в веб-формат для интерактива
Подписаться
#соцэк