Telegram Group Search
Недавно мире российский открытых геоданных появилась как будто чудесная новость : ЯК опубликовали открытый датасет "GeoDataReviews" с 500 тыс отзывов об организациях. Учитывая сколько парсингов написано для ЯК - давно пора)

Чем в теории полезен такой датасет:
- Для компаний это данные о конкурентах - организациях вокруг такого же профиля. Как минимум можно посчитать их количество вокруг, как максимум собрать эмоциональную оценку посетителей и сделать выводы об их сильных и слабых сторонах.

Для муниципалитетов и исследовательских институтов - это источник знаний о горожанах: где они чаще всего бывают, какие POIs наиболее или наименее привлекательные.

Однако по факту у датасета очень много НО, которые на мой взгляд делают его практически бесполезным.

Если не хочется читать НО, то вот ссылка на мой проект - можете там все сами посмотреть. В нем можно найти ноутбук с анализом и чисткой датасета, а также с семплом на 2400 адресов в формате geojson.

Теперь, что же не так с датасетом или как делать не надо):

Ощущение, что авторы файла специально старались максимально усложнить жизнь пользователю и сделать формат настолько неудобным, чтобы часть вообще отказалась его использовать: вроде бы открыли, но не для всех)

1. Во-первых, мы ничего не знаем о том каким образом были отобраны 500 тыс организаций - описание отсутствует. Например, проверка показала, что число организаций в датасете на дом не совпадает с ЯК, так же как и число отзывов (в основном 1/2 отзыва). Также непонятно можно ли верить популярность рубрик по городам. Уже этого достаточно, чтобы файл стал бесполезным)

2. Во-вторых, формат файла. "GeoReviews" не должны храниться в CSV/tsvk формате - для хранения геоданных есть специальные геоформаты. И что-то мне подсказывает, что в ЯК о них знают)

3. Из предыдущего пункта следует, что в этом файле нет, конечно, никаких координат. Ведь если вам очень надо, вы же без труда найдете как геокодировать 200к адресов?) Если нет, то заплатите яндексу или гуглу)). Что за селекцию на пользование геокодером предполагали авторы (у которых были координаты организаций) - непонятно.

4. Структура/содержимое файла: я несколько раз считала файл в python, чтобы убедиться, что мне не кажется) В файле нет заголовков столбцов, зато каждая ячейка начинается так: 'адрес=', 'рейтинг = '. Да, несложно распарсить это в таблицу - но почему сразу не дать данные в нормальном формате?! И, да, как полагается, в 900 строчках перепутан порядок колонок - в коде я их поправила быстро, но все равно неприятно.

Какой вывод: я не знаю, какие цели преследовал Яндекс открывая эти данные, но так как это сделано - максимально обесценивает усилия. Постаралась немного упростить вам жизнь, сделав ноутбук с чисткой и анализом, надеюсь кому-то поможет:)
#cartetika_event #mapacon барабанная дробь....

Мы делаем конференцию «МАПАКОН»!

29 марта 2024 года в день рождения Картетики состоится онлайн-конференция про всё, что связано с геотехнологиями!

Мы будем говорить про ГИС-технологии, ДЗЗ, образование и работу в нашей сфере, и про всё-всё-всё, что волнует вас и нас.

Сегодня мы торжественно и с лёгким волнением открываем сбор заявок на ваши доклады. Всю подробную информацию, а также форму для заявок можно найти на странице конференции. Форму записи для слушателей мы откроем чуть позже.

Для кого эта конференция?
- для технических специалистов в области ГИС, ДЗЗ, геодезии и картографии, геологии, экологии, урбанистики и транспорта, маркетинга, дизайна, географии, археологии;
- для представителей "гео-бизнеса" и работодателей в сфере геотехнологий;
- для преподавателей и студентов гео-направлений;
- для всех интересующихся геотехнологиями.

С нетерпением ждём ваши заявки! 🥳
Думаю, что вы все знаете, что в Израиле сейчас идет война. Если вы хотите и готовы финансово помочь, вот ссылки для пожертвований организациям, поддерживающим армию и пострадавшее население. Переводы доступны в том числе из-за рубежа.
Ссылка для способов помочь финансово, особенно из-за границы

Чтобы делиться на работе или с неравнодушными знакомыми по всему миру

Ссылка 👈
Я с классной новостью, точнее спойлером, которая поможет укрепить и расширить наше маленькое и уютное гео аналитическое коммьюнити😊

Я заметила, что самый большой интерес на курсе вызывает разбор реальных задач бизнеса, на 2ом месте - нетворкинг и обсуждение вариантов решения.

Очень хотелось, чтобы это вышло за рамки курса, поэтому в первых неделях декабря мы вместе с @romanovgleb и @mashulkap проведём 2х недельный #GeoConnect.

Что такое #GeoConnect?
Это 2 недели мастер-классов, командное решение бизнес-задачи по геоаналитике и data science, нетворкинг, и поощрительные призы от нашего партнера Wildberries.

Следите за обновлениями в канале, собирайте команду и бронируйте время в своих календарях: 30.11 - 10.12 🤟
#geoconnect #geocontest
Всем привет. Мы готовы объявить о начале регистрации на GeoConnect!

Читать подробности и регистрироваться тут: https://geowb.ru/

Важное ☝️
Даты: 30 ноября - 10 декабря

Общая задача: определить факторы, влияющие на объемы выручки в пунктах выдачи заказов Wildberries

Размер команды: от 1 человека

2 трека:
- Дата инстайты - для тех, кто считает, что все неслучайно
-Kaggle competition - для тех, кто умеет делать r2=2


После регистрации не забудьте добавиться в чат, указанный на странице после регистрации😊
#geoconnect
Всем доброе утро.

Напоминаем, что от тех, кто планирует решать задачу в рамках Geoconnect и зарегистрировался на трек "Дата инсайты", сегодня до конца дня ждём тестовое задание📄.

Без него участвовать в конкурсе не получится🤷‍♀
#phd_insights #intro
Придумала на днях после очередной консультации, что возможно, многим из вас будет интересно узнать про мой PhD трек, про который я толком здесь ничего не написала, хотя с того момента, как желание писать тезис превратилось в осязаемую головную боль, прошел уже год.

Удовлетворять ваше любопытство буду под хештегом #phd_insights. Здесь будет все: от поиска позиции и PhD -рутины до инсайтов и гипотез исследования.

Задача для вас: если вам интересна эта тема - поставьте, пожалуйста, лайк под этим постом, и, если есть пожелания, о чем хотите узнать, пишите, в комментариях
#phd_insights #about

Итак, я уже год считаюсь PhD-соискателем в Hebrew University в Иерусалиме на кафедре географии, что на факультете Social Science: ссылка для тех, кому интересно

Сразу должна оговориться, что мой путь нельзя назвать классическим, поскольку вместе с PhD я продолжаю работать full-time, чего обычно не делают. В моем случае профессор сам помогал мне искать работу - наверное, он что-то знает про академию🤔

Как устроен мой трек:
- Официально заявленный срок моего PhD - 4 года. Профессор говорит, что надо уложиться в 3🤷‍♀️
- Первый год отводится на написание proposal, который потом, нужно защищать перед комиссией, что тоже бывает не у всех. Остальное время на написание и защиту.
- На каждый семестр у меня определено обязательное число учебных часов (кредитов) по предметам, которые мы с научником вместе выбираем. За предмет нужно набрать не менее 70%
- Язык PhD английский, но курсы я могу брать на английском или иврите, что на самом деле переводится так: "в какой-то момент курсы на английском кончатся и придется брать иврит🤦‍♀️"

Подробнее про все это я напишу еще в отдельных постах.

О чем тезис
- Самый сложный на сегодня для меня вопрос, поскольку из-за войны вся учеба сдвинулась на 3 месяца - переводится как "профессор может не отвечать неделями" - и я все еще на стадии proposal.
Но если предположить, что заявленный title сохранится, то он звучит так: "The effect of remote and hybrid working on the urban equilibrium and the chances of post pandemic urban recovery"

Это переводится как: "тему сформулировали модно и широко, чтобы была возможность уточнить, в любую сторону". По факту я надеюсь, что пишу о том, как работа из дома (гибридная или фул-тайм) влияет на баланс спроса и предложения сервисов в разных районах города.
Подробнее про выбор темы и, разумеется, ее идею в следующих постах. Stay tuned
#momepy #landuse

Сейчас по работе решаю задачу выделения в городе разных функциональных зон, а также разделения города на кварталы в зависимости от их уровня экономического развития. Это довольно популярная проблема, когда сервис нацелен на определенную аудиторию, а в регионе структура населения неоднородна.

Я решаю задачу для столицы Нигерии - Лагоса, где по данным World Bank наблюдается чуть ли не самый большой в мире индекс неравенства: трущобы, где люди до сих пор выбрасывают отходы в реку, перемежаются с районами вилл самых богатых людей Африки. Соответственно, мне нужно как минимум научиться отличать первые от вторых, а еще желателно выделять "средний" класс, а также зоны коммерческого и индустриального использования

Из данных:
- building footprints (от microsoft и со спутников)
- дорожный граф из OpenStreetMap
- POIs ( у нас есть скрепер с Google Maps, но можно и из OSM)
- население из HDX по квадратам на 1км
- Скоры на основе переписи населении по уровню покрытия связью и экономическому уровню, рассчитанные на электоральные районы

Как видите никаких мобильных данных или данных о тратах по картам, которые бы хорошо помогли ответить на вопрос об экономической активности населения, нет. Поэтому решать задачу придется полагаясь на гипотезу о различии морфологии бедных, средних и богатых районов.

Для этого я использую python библиотеку momepy, где автор Martin Fleishman собрал все возможные метрики, связанные с описанием расположения зданий в районе. Вот тут можно найти ноутбук с его воркшопа. В комменты поста кинули еще вот такой пример работы с библиотекой.
Все что нужно для работы с библиотекой - это building footprints, код на загрузку улиц за вас уже написан😊 Прикладываю вам для вдохновения красивую картинку, где дома раскрашены по показателю intensity.

Дальше возникает вопрос, что делать с получившимися метриками? Как определить порог, по которому можно отличить районы.

С одной стороны для такого города как Лагос вопрос звучит несложно: в трущобах застройка явно плотнее, чем в богатых районах, а улицы там явно рисовал не urban planner. С другой стороны, а в моем случае требуется точность близкая к единице - ошибиться и предложить клиенту развивать сервис в районах, где нет электричества будет стоить компании как минимум репутации. Кроме того, вопрос land use это не решает

Найти правильный ответ на вопрос мне еще предстоит, а пока делюсь текущими вариантами и источниками

В качестве вдохновения для экспериментов взяла 3 статьи:

1. Статья про выделение трущоб для Найроби (как раз на основе momepy). Тут авторы предлагают обойтись без таргета и сделать иерархическую кластеризацию на основе метрик зданий. Идея хорошая, вопрос в невозможности оценить точность и нет ответа про land use

2. Свежая статья про выделение функциональных зон в 2х районах Сингапура. Авторы решают задачу на основе плотности POI из разных категорий (KDE) и кластеризации. В моем случае частично решает проблему

3. Статья про выделение трущоб в Джакарте на основе Remote Sensing и анализа Street Views. Для меня эта статья интересна возможностью переиспользовать отвалидированные модели, выученные на одной стране, для другой. Риск здесь - различия в морфологии трущоб.

Как будут результаты обязательно поделюсь получившимся решением, а пока держите красивую картинку Лагоса на основе метрики intensity из momepy
Вот обещанная картинка, специально не добавила легенду - попробуйте догадаться, в районах какого цвета больше всего трущоб (разделение не идеально, но показательно)
#geoconnect
Всем привет.

Уже через 20 мин мы будем открывать Geoconnect: неделю задач, мастер-классов и нетворкинга в сфере геоаналитики.

Регистрация на решение задач уже закрыта, но мы ждём всех на мастер-классы и в зум бары 😊🍿🍸

Начинаем в 19:00 МСК
Подключиться тут: https://us06web.zoom.us/j/85652498748.

Группа GeoConnect, если вдруг пропустили: https://www.group-telegram.com/+pJAzMcr6bjZjYmFi
Всем привет!

Сегодня встречаемся в зум-баре в 20:00 ( отличается от обычного зума наличием напитков рядом с участниками). Будем обсуждать, какие скилы сегодня нужны геоаналитику

Поговорим про ваш опыт и про команды, в которых вы работаете. Какие навыки применяете постоянно, а что отложили до лучших времен.

Попробуем составить портрет "Идеального геоаналитика", который я потом пошерю в канале.

Ссылка на зум: https://us06web.zoom.us/j/87638606118?pwd=wTtKiocEMRvNCFrN0F6ag6kjN70Nuk.1
Всех ждем🍹
Глеб провел сегодня шикарный мастер-класс по QGIS.

Если вам нужно получить открытые данные из OSM или другие открытые данные по России, сцепить несколько слоев или обрезать большой датасет в нужных границах, то очень рекомендую посмотреть -быстрее и элегантнее способа я не видела😊
Forwarded from Gleb Romanov
Ребята привет ещё раз) здесь оставляю ссылку на запись мастер-класса по гисам, который сегодня прошёл
https://youtu.be/YefwDgQYpf8

——————
Описание:
QGIS хорошо подходит для того, чтобы быстро посмотреть на данные и сравнить их с другими источниками; Мастер-класс подойдёт дата саентистам (быстрый исследовательский анализ геоданных) и тем, кто имеет мало опыта в QGIS.
На мастер-классе рассказываю про основные элементы QGIS (проекции, панели инструментов, плагины), показывает примеры аналитических и исследовательских запросов (работа с пространственной и табличной выборками, пространственная сцепка - spatial join, буфер и объединение объектов, работа с проекциями).

——————
Полезные ссылки и комментарии:
Плагины: QuickOSM, QuickMapServices, h3 toolkit, lat lon tools
Скачать выгрузку данных ОСМ: https://download.geofabrik.de/
Заинспектить гексы и сравнить разрешения в вебе: https://wolf-h3-viewer.glitch.me/
Forwarded from Inessa Tregubova
Всем привет!

Завтра в 18:00 по МСК будет мой мастер-класс по загрузке и обработке данных в Python (1 час)

Для кого мастер-класс:
- для тех, кто аналитиков или DS, которым нужна помощь в обработке геоданных: как отобразить на карте, как сделать геометрию из 2 полей с координатами и тд

- для тех, кто знает python на базовом уровне, в основном работает в GIS и хочет научиться делать пространственные операции в python

Что потребуется, чтобы повторить мастер-класс:
- установить Анаконду или любую другую среду с Jupyter notebook
- поставить библиотеки geopandas, osmnx, libpysal, shapely

План мастер-класса:
- Загрузка данных из гео и CSV файлов
- Загрузка данных из OSM (osmnx)
- Пространственная сцепка наборов
- Расчеты метрик на уровне дома или соседства
- Стандартизация данных
- Визуализация распределений на карте и графиках

Ссылку пришлем перед началом
Итак, видео и ноутбук со вчерашнего мастер-класса готовы, но поделюсь я ими с вами не здесь, а в своем новом блоге в Boosty.

Я решила попробовать новый формат публикации своих мыслей и наработок: все-таки, телеграм тесноват для разборов кода, плюс это дополнительная мотивация писать регулярно "пока горячо"😊

Первое время буду писать 4 раза в месяц на разные темы от карьеры в геоаналитике до разборов гео методов в Python. Бонусом новостной 5-мин подкаст о всем, что произошло за последнюю неделю и интересно геоаналитику. Если будет интерес, то дальше больше:)

Подписывайтесь и жду ваших комментариев под постами 😉

P.S. Это не значит, что я перестану писать здесь, просто те подробности, про которые вы меня часто спрашиваете, теперь буду в Boosty
О городах и данных pinned «Итак, видео и ноутбук со вчерашнего мастер-класса готовы, но поделюсь я ими с вами не здесь, а в своем новом блоге в Boosty. Я решила попробовать новый формат публикации своих мыслей и наработок: все-таки, телеграм тесноват для разборов кода, плюс это дополнительная…»
Сегодня в 17:30 по Москве проведем Финал GeoConnect.

5 команд финалистов представят свои выводы о влиянии локации на обороты ПВЗ Wildberries.

Мы также разыгрываем приз зрительских симпатий, поэтому вы также сможете поучаствовать в выборе лучших:)

Подключаться по ссылке:
https://us06web.zoom.us/j/84950481688
2025/06/26 13:20:19
Back to Top
HTML Embed Code: