Forwarded from ХЗ Инфо | Карты и статистика
🛜 Страны мира с наибольшим числом людей, лишенных доступа к интернету
Индия лидирует по числу людей, не имеющих доступа к интернету – 684 миллиона (48% населения страны). На втором месте – Китай, где вне сети остаются 336 миллионов человек (24%).
В Африке наибольшая доля населения без интернета зафиксирована в Эфиопии – 81%, в Уганде – 73%, а в Демократической Республике Конго – 71%. В Танзании, Нигерии и Бангладеш около 55% населения также не подключены к сети.
Основные причины такого разрыва – недостаток инфраструктуры, высокая стоимость подключения и бедность, особенно в сельской местности.
Индия лидирует по числу людей, не имеющих доступа к интернету – 684 миллиона (48% населения страны). На втором месте – Китай, где вне сети остаются 336 миллионов человек (24%).
В Африке наибольшая доля населения без интернета зафиксирована в Эфиопии – 81%, в Уганде – 73%, а в Демократической Республике Конго – 71%. В Танзании, Нигерии и Бангладеш около 55% населения также не подключены к сети.
Основные причины такого разрыва – недостаток инфраструктуры, высокая стоимость подключения и бедность, особенно в сельской местности.
Я тут осознала, что очень отстала от жизни. Почему? Потому что до Гошиного поста про новую Urban Foundation Model от Google, никогда про них не слышала - а судя по этой статье, за последние 2 года их популярность стремительно набирает обороты, и есть уже модели под самые различные задачи от прогноза загруженности дорог до анализа потребления электричества. Точнее их прелесть в том, что одна такая модель может помочь решить обе задачи, и еще пару 10тков других.
Вобщем, я очень эксайтед попробовать дообучить одну из таких моделей либо под рабочую, либо под PhD задачу, но это займет время. Поэтому пока написала открытый пост у себя в boosty с тем, чтобы немного разобраться в концепции foundation models в гео.
И да, если у кого-то есть опыт разработки или использования такой модели, поделитесь. Очень интересно
Вобщем, я очень эксайтед попробовать дообучить одну из таких моделей либо под рабочую, либо под PhD задачу, но это займет время. Поэтому пока написала открытый пост у себя в boosty с тем, чтобы немного разобраться в концепции foundation models в гео.
И да, если у кого-то есть опыт разработки или использования такой модели, поделитесь. Очень интересно
Forwarded from Geoalert Blog
While there is a constantly growing number of publications about the integration of large models (#LLMs, Visual language models) with spatial apps—both academic and marketing 😎 — we added our two bits from solving real business cases.
Next time you see a lot of comments under another LinkedIn post featuring #geoai and #arcgis as a game changer of this integration, take a deep breath and remind yourself about hitting the target. 😃
Next time you see a lot of comments under another LinkedIn post featuring #geoai and #arcgis as a game changer of this integration, take a deep breath and remind yourself about hitting the target. 😃
Forwarded from Gleb Romanov
Ребята привет! Ищем геоаналитика в юнит открытий ПВЗ компании Wildberries.
Задача команды геоаналитики - понимать, сколько мы хотим открывать ПВЗ и в каких местах + как смотивировать собственников на открытие именно в нужной для нас точке. Продукт, который служит достижению этой цели - карта открытий (часть алгоритмов под капотом этой карты написала команда геоаналитики).
Цель по открытиям достигается через набор моделей (предсказание оборота старых и новых ПВЗ, перегруза, вероятности открытия, расходов и доходов собственника и ВБ и других).
Вам предстоит заниматься как написанием новых и развитием существующих моделей (выдвижение гипотез, построение фичей и таргета, анализ результата и корректировка модели, построение финального пайплайна), так и ad hoc запросами от бизнеса (пример: проанализировать распределение оборотов в малых городах стран СНГ, подготовить предложения по изменению параметров зон карты в этих городах, защитить результат перед бизнесом).
Мы ожидаем, что у вас есть:
* Уровень от middle и выше (3+ года в программировании и QGIS - каждом по отдельности);
* Опыт работы с python (geopandas), PostGIS, QGIS;
* Знание и практическое применение мат. статистики и алгоритмов ML;
* Самостоятельность (готовность понять проблему заказчика и преобразовать в техническое решение);
* Интерес к геоаналитике, желание развиваться в этой сфере;
* Будет плюсом опыт в: osmnx, networkx, momepy.
Мы предлагаем:
* Сложные интересные исследовательские задачи, менторство и команду аналитиков, которым не всё равно;
* Гибридный формат работы в Москве (2 раза в неделю встречаемся в офисе на м. Тульская);
Для связи пишите Виктории @VSH_job (скажите, что пришли через канал Инессы Трегубовой - ребята с такой рекомендацией проходят облегчённый первичный скриннинг)
Задача команды геоаналитики - понимать, сколько мы хотим открывать ПВЗ и в каких местах + как смотивировать собственников на открытие именно в нужной для нас точке. Продукт, который служит достижению этой цели - карта открытий (часть алгоритмов под капотом этой карты написала команда геоаналитики).
Цель по открытиям достигается через набор моделей (предсказание оборота старых и новых ПВЗ, перегруза, вероятности открытия, расходов и доходов собственника и ВБ и других).
Вам предстоит заниматься как написанием новых и развитием существующих моделей (выдвижение гипотез, построение фичей и таргета, анализ результата и корректировка модели, построение финального пайплайна), так и ad hoc запросами от бизнеса (пример: проанализировать распределение оборотов в малых городах стран СНГ, подготовить предложения по изменению параметров зон карты в этих городах, защитить результат перед бизнесом).
Мы ожидаем, что у вас есть:
* Уровень от middle и выше (3+ года в программировании и QGIS - каждом по отдельности);
* Опыт работы с python (geopandas), PostGIS, QGIS;
* Знание и практическое применение мат. статистики и алгоритмов ML;
* Самостоятельность (готовность понять проблему заказчика и преобразовать в техническое решение);
* Интерес к геоаналитике, желание развиваться в этой сфере;
* Будет плюсом опыт в: osmnx, networkx, momepy.
Мы предлагаем:
* Сложные интересные исследовательские задачи, менторство и команду аналитиков, которым не всё равно;
* Гибридный формат работы в Москве (2 раза в неделю встречаемся в офисе на м. Тульская);
Для связи пишите Виктории @VSH_job (скажите, что пришли через канал Инессы Трегубовой - ребята с такой рекомендацией проходят облегчённый первичный скриннинг)
# PhD #mobiledata
Давно не было тут новостей про мой PhD, а работа тем временем кипит. Я завела проект на гитхаб, где можно следить за работой:)
Теперь пара слов о том, что я делаю.
В работе я исследую влияние удаленной работы на экономику городских районов. Моя гипотеза в том, что люди, которые часть времени работают из дома стали менее чувствительны к времени, которое заменяет дорога на работу, но при этом больше обращают внимание на доступность сервисов, кафе, магазинов вокруг дома. И такое поведение меняет экономику городских районов.
Свою гипотезу я проверяю на центральном районе Израиля, где большинство рабочих мест и развлечений сосредоточено в Тель-Авиве, а спальные кварталы расположены вокруг, в городах-спутниках.
Так вот, за последние два месяца я сделала первые шаги для того, чтобы оценить долю удаленьщиков в кварталах городов центра Израиля. Точнее измерить как менялся ее уровень с 2019 по 2023 год.
Мне повезло получить данные о GPS-локациях от компании Habidatum, поэтому измерения я делаю на мобильных сигналах, что должно дать мне результат более точный, чем опросы.
Почему "первые шаги"? Потому что с учётом размера данных каждый месяц приходится обрабатывать по-отдельности и потому что оценка удаленки оказалась не такой простой, как в теории. Пока я научилась с уверенностью находить дом и работу юзеров на каждый месяц данных- это было тоже непросто. Код можно найти на гитхаб, большой текст про подход у меня в бусти.
Знаю, что большинство читать не будут), поэтому кратко тут:
- правила о времени и частоте сигналов дома и на работе сработали лучше кластеризации;
- сначала пришлось найти дом и из оставшихся локаций работу;
- корреляция домашних локаций с населением 0.65
- ошибка первого рода рабочих локаций и официальных рабочих зон 4%.
Про так, как в итоге получилось посчитать долю работы из дома, напишу в следующих постах. А пока, можете пожелать мне удачи😊
Давно не было тут новостей про мой PhD, а работа тем временем кипит. Я завела проект на гитхаб, где можно следить за работой:)
Теперь пара слов о том, что я делаю.
В работе я исследую влияние удаленной работы на экономику городских районов. Моя гипотеза в том, что люди, которые часть времени работают из дома стали менее чувствительны к времени, которое заменяет дорога на работу, но при этом больше обращают внимание на доступность сервисов, кафе, магазинов вокруг дома. И такое поведение меняет экономику городских районов.
Свою гипотезу я проверяю на центральном районе Израиля, где большинство рабочих мест и развлечений сосредоточено в Тель-Авиве, а спальные кварталы расположены вокруг, в городах-спутниках.
Так вот, за последние два месяца я сделала первые шаги для того, чтобы оценить долю удаленьщиков в кварталах городов центра Израиля. Точнее измерить как менялся ее уровень с 2019 по 2023 год.
Мне повезло получить данные о GPS-локациях от компании Habidatum, поэтому измерения я делаю на мобильных сигналах, что должно дать мне результат более точный, чем опросы.
Почему "первые шаги"? Потому что с учётом размера данных каждый месяц приходится обрабатывать по-отдельности и потому что оценка удаленки оказалась не такой простой, как в теории. Пока я научилась с уверенностью находить дом и работу юзеров на каждый месяц данных- это было тоже непросто. Код можно найти на гитхаб, большой текст про подход у меня в бусти.
Знаю, что большинство читать не будут), поэтому кратко тут:
- правила о времени и частоте сигналов дома и на работе сработали лучше кластеризации;
- сначала пришлось найти дом и из оставшихся локаций работу;
- корреляция домашних локаций с населением 0.65
- ошибка первого рода рабочих локаций и официальных рабочих зон 4%.
Про так, как в итоге получилось посчитать долю работы из дома, напишу в следующих постах. А пока, можете пожелать мне удачи😊
Если вам вдруг станет скучно отдыхать на выходных, рекомендую почитать посты на этом ресурсе.
Авторы, 3 профессора из университетов США и Испании, разбирают академические статьи ( в основном behavioral science) с целью поиска в них фрода при работе с данными. Они пытаются повторить шаги исследователей на расширенной выборке или другими стат методами и проверить получается ли такой же результат как в статье. Один из авторов подал на них в суд иск на 25млн долларов - так что все серьезно:)
На мой взгляд очень полезное чтение с точки зрения понимания подводных камней при разработке дизайна исследования.
Авторы, 3 профессора из университетов США и Испании, разбирают академические статьи ( в основном behavioral science) с целью поиска в них фрода при работе с данными. Они пытаются повторить шаги исследователей на расширенной выборке или другими стат методами и проверить получается ли такой же результат как в статье. Один из авторов подал на них в суд иск на 25млн долларов - так что все серьезно:)
На мой взгляд очень полезное чтение с точки зрения понимания подводных камней при разработке дизайна исследования.
На днях коллега на работе рассказал, что установил себе Cursor AI, и теперь и код и документацию стало писать гораздо проще.. чем с ChatGPT🙄
Я тоже установила ( выглядит один в один как Visual Studio Code) и второй день кайфую: дописывает код по аналогии, ищет ошибки в логике внутри как отдельного файла, так и всего проекта, создаёт описание итд. В общем пока сплошные плюсы. Посмотрим потребует ли он в какой-то момент денег, но пока все бесплатно.
И я понимаю,что вокруг еще множество других AI инструментов, делающих рутину менее рутинной.
Поэтому мне очень интересно, какими инструментами кроме chatgpt пользуетесь вы и для каких задач. Напишите, в комментариях:) Получившийся список выложу отдельным постом.
Я тоже установила ( выглядит один в один как Visual Studio Code) и второй день кайфую: дописывает код по аналогии, ищет ошибки в логике внутри как отдельного файла, так и всего проекта, создаёт описание итд. В общем пока сплошные плюсы. Посмотрим потребует ли он в какой-то момент денег, но пока все бесплатно.
И я понимаю,что вокруг еще множество других AI инструментов, делающих рутину менее рутинной.
Поэтому мне очень интересно, какими инструментами кроме chatgpt пользуетесь вы и для каких задач. Напишите, в комментариях:) Получившийся список выложу отдельным постом.
Cursor
Cursor - The AI Code Editor
Built to make you extraordinarily productive, Cursor is the best way to code with AI.
Planet AI Symposium 30-го января
Выглядит как что -то интересное, хотя программы я не нашла. Точно известно, что про AI и гео, что бесплатно и что онлайн)
Выглядит как что -то интересное, хотя программы я не нашла. Точно известно, что про AI и гео, что бесплатно и что онлайн)
planet-ai-symposium.nowvirtual.live
Planet AI Symposium
Insights from Industry Thought Leaders
В тему полезных AI. За последнее время слышала про NotebookLM хорошие отзывы уже от четырех человек
Audio
Ты уже послушал подкаст про свою научную статью?
Звучит немного странно, но я вот слушаю прямо сейчас.
Как? Загружаю pdf своей статьи или какого-то научного обзора или даже учебника в систему, задаю примерный фокус и стиль обсуждения, и через несколько минут получаю натуральный подкаст, в котором двое ведущих с интересом обсуждают мою работу.
Послушайте файл, это просто вау! Тут, например, обсуждают нашу статью про наночастицы золота в ситаллах.
Отдельный восторг, что в этот разговор можно включиться и задавать голосом свои вопросы «ведущим», а те будут отвечать.
Кто делает эту магию? Платформа NotebookLM от Google, причем абсолютно бесплатно.
«Аудиопересказ» - это лишь одна из фишек. Главная функция в том, чтобы извлекать нужные данные одновременно из разных источников, сравнивать их между собой и писать тексты на основе данных.
К примеру, можно загрузить несколько файлов статей, позадавать вопросы и попросить сформулировать различия в методах исследования или в полученных результатах. С учебником удобно работать разбирая разные главы: создавать саммари и вопросы для проверки.
Важно, что система выдает ссылки на те части документа, откуда она взяла информацию. То есть нет не только «галлюцинаций», но еще и понятно, какая часть статьи была обработана для ответа.
В общем пока NotebookLM - это самый топ для ученых и преподавателей из всего «ИИ-многообразия», что я видел. (Работает только на компьютере и только с VPN).
P.S. пост взят у @shakhgildyan (почему-то не отразилось при перессылке)
Звучит немного странно, но я вот слушаю прямо сейчас.
Как? Загружаю pdf своей статьи или какого-то научного обзора или даже учебника в систему, задаю примерный фокус и стиль обсуждения, и через несколько минут получаю натуральный подкаст, в котором двое ведущих с интересом обсуждают мою работу.
Послушайте файл, это просто вау! Тут, например, обсуждают нашу статью про наночастицы золота в ситаллах.
Отдельный восторг, что в этот разговор можно включиться и задавать голосом свои вопросы «ведущим», а те будут отвечать.
Кто делает эту магию? Платформа NotebookLM от Google, причем абсолютно бесплатно.
«Аудиопересказ» - это лишь одна из фишек. Главная функция в том, чтобы извлекать нужные данные одновременно из разных источников, сравнивать их между собой и писать тексты на основе данных.
К примеру, можно загрузить несколько файлов статей, позадавать вопросы и попросить сформулировать различия в методах исследования или в полученных результатах. С учебником удобно работать разбирая разные главы: создавать саммари и вопросы для проверки.
Важно, что система выдает ссылки на те части документа, откуда она взяла информацию. То есть нет не только «галлюцинаций», но еще и понятно, какая часть статьи была обработана для ответа.
В общем пока NotebookLM - это самый топ для ученых и преподавателей из всего «ИИ-многообразия», что я видел. (Работает только на компьютере и только с VPN).
P.S. пост взят у @shakhgildyan (почему-то не отразилось при перессылке)
Forwarded from Картетика.Канал
Анализ гео-сферы 2024 года по результатам опроса
Осенью 2024 года мы провели опрос ГИС-специалистов, и сегодня публикуем первую часть его результатов. В ней общая информация про опрос и тех, кто принял участие.
Из кого состоит наша сфера, и какие выводы можно по этому делать? Какие есть перспективы? С каким образованием и в каких компаниях работают люди?
Читайте в статье "Анализ гео-сферы 2024. Часть 1: знакомство со сферой геотехнологий" ⚡️
Спасибо всем, кто участвовал в опросе и кто поделился им!
Мы продолжим оформлять материал в статьи с графиками и делиться информацией, которая поможет делать более осознанные карьерные решения.
Осенью 2024 года мы провели опрос ГИС-специалистов, и сегодня публикуем первую часть его результатов. В ней общая информация про опрос и тех, кто принял участие.
Из кого состоит наша сфера, и какие выводы можно по этому делать? Какие есть перспективы? С каким образованием и в каких компаниях работают люди?
Читайте в статье "Анализ гео-сферы 2024. Часть 1: знакомство со сферой геотехнологий" ⚡️
Спасибо всем, кто участвовал в опросе и кто поделился им!
Мы продолжим оформлять материал в статьи с графиками и делиться информацией, которая поможет делать более осознанные карьерные решения.
cartetika.ru
Анализ гео-сферы 2024. Часть 1: знакомство со сферой геотехнологий
В конце 2024 года мы проводили опрос специалистов, работающих в сфере геотехнологий. Вот первая часть результатов.
Как и обещала, продолжаю делиться с вами новостями моего PhD 🎓
(нравится оно вам или нет 😃)
Последний раз я остановилась на том, что мне удалось найти домашние и рабочие локации юзеров по их GPS-координатам, записанным в период 01/2019–09/2023.
С того момента я сделала три попытки оценить месячный уровень удаленной работы и хочу вкратце поделиться с вами результатами.
📌 Код можно найти у меня на GitHub
---
🔹 Идея 1:
📍 Удаленка = _доля домашних сигналов, случившихся в рабочие часы (11:00–16:00)_
🔸 Результат:
📊 При таком расчете уровень удаленки оказался самым высоким в 2019 г. и самым низким в месяцы локдауна (04–05/2020).
❓ Почему
🔹 В месяцах разная доля сигналов в рабочие часы.
🔹 В ковидные месяцы почти все сигналы записаны либо рано утром, либо поздно вечером.
---
🔹 Идея 2:
📍 Удаленка = _доля рабочих часов (11:00–16:00), в которые сигналы получены из домашней локации._
_Месяцы с низким числом рабочих часов исключены._
🔸 Результат:
📊 Сильный рост удаленки во второй локдаун (09/2020), но уровень удаленки в 2019 выше, чем в 2023.
❓ Почему
🔹 У юзеров разная частота рабочих часов внутри месяца.
🔹 Одна случайная домашняя локация в 11:00 при отсутствии других сигналов днем → доля удаленки = 100%.
🔹 Индивидуальные рабочие графики могут отличаться.
---
🔹 Идея 3:
📍 Удаленка = _доля часов, в которые у юзера вероятность быть на работе выше, чем в любой другой локации, но фактически он находился дома._
_При этом ни в один час того же дня юзер не посещал офис._
🔹 Как?
Используем Bayesian conditional probability :
где:
-
-
-
-
Удаленка определяется как:
где:
-
-
🔸 Результат:
📊 Резкий рост удаленки в период 04/2020–10/2020, постепенное снижение в 2021–2023, но доля все еще выше, чем в 2019.
(нравится оно вам или нет 😃)
Последний раз я остановилась на том, что мне удалось найти домашние и рабочие локации юзеров по их GPS-координатам, записанным в период 01/2019–09/2023.
С того момента я сделала три попытки оценить месячный уровень удаленной работы и хочу вкратце поделиться с вами результатами.
📌 Код можно найти у меня на GitHub
---
🔹 Идея 1:
📍 Удаленка = _доля домашних сигналов, случившихся в рабочие часы (11:00–16:00)_
🔸 Результат:
📊 При таком расчете уровень удаленки оказался самым высоким в 2019 г. и самым низким в месяцы локдауна (04–05/2020).
❓ Почему
🔹 В месяцах разная доля сигналов в рабочие часы.
🔹 В ковидные месяцы почти все сигналы записаны либо рано утром, либо поздно вечером.
---
🔹 Идея 2:
📍 Удаленка = _доля рабочих часов (11:00–16:00), в которые сигналы получены из домашней локации._
_Месяцы с низким числом рабочих часов исключены._
🔸 Результат:
📊 Сильный рост удаленки во второй локдаун (09/2020), но уровень удаленки в 2019 выше, чем в 2023.
❓ Почему
🔹 У юзеров разная частота рабочих часов внутри месяца.
🔹 Одна случайная домашняя локация в 11:00 при отсутствии других сигналов днем → доля удаленки = 100%.
🔹 Индивидуальные рабочие графики могут отличаться.
---
🔹 Идея 3:
📍 Удаленка = _доля часов, в которые у юзера вероятность быть на работе выше, чем в любой другой локации, но фактически он находился дома._
_При этом ни в один час того же дня юзер не посещал офис._
🔹 Как?
Используем Bayesian conditional probability :
P(O|h) = P(O) * P(h|O) / P(h)
где:
-
P(O|h)
- вероятность для юзера быть в офисе в конкретный час невыходного дня с 8 утра до 7 вечера-
P(O)
— доля офисных часов в дни посещения офиса. -
P(h)
— доля конкретного часа в офисные дни. -
P(h|O)
— доля конкретного часа среди часов с сигналом из офиса в офисные дни. Удаленка определяется как:
P(O|h) > P(H|h) & P(O|h) > P(3rdP|h)
& Home Location где:
-
P(H|h)
— вероятность для юзера быть дома в конкретный час. -
P(3rdP|h)
— вероятность для юзера быть в третьей локации в конкретный час.🔸 Результат:
📊 Резкий рост удаленки в период 04/2020–10/2020, постепенное снижение в 2021–2023, но доля все еще выше, чем в 2019.
Качество проверено на собственном опыте:)
Онлайн-школа урбанистики и городских исследований «Города» приглашает вас на курсы в марте!
Преподаватели Школы — специалисты, которые получили уникальные знания в полях и создали авторские курсы. Занятия проходят онлайн, по заранее известному расписанию, доступно и увлекательно для каждого. Программы наполнены практикой, а отдельные курсы подразумевают трекинг проектов слушателей.
В программе весеннего потока Школы — 7 авторских курсов и книжный клуб:
🔵курс Петра Иванова «Введение в методы социологии города»
🔵курс Ольги Максимовой «География для архитекторов»
🔵курс Сергея Царёва «Город и девелопер: поиски партнёрства»
🔵курс Александра Антонова «Пространственное планирование»
🔵курс Дмитрия Лисицина «Социальное проектирование в малых городах»
🔵курс Игоря Стася Urban History
🔵курс Артёма Гебелева «Как создавать среду для людей с собаками в ЖК и общественных пространствах»
🔵Медленный книжный клуб «Читающие города» от Марии Быстровой
Подробнее прочитать о курсах и записаться вы можете уже сейчас на сайте Школы: https://gorodaschool.ru/. Бонусы школы — закрытый нетворк-чат и чаты с преподавателями курсов.
Онлайн-школа урбанистики и городских исследований «Города» приглашает вас на курсы в марте!
Преподаватели Школы — специалисты, которые получили уникальные знания в полях и создали авторские курсы. Занятия проходят онлайн, по заранее известному расписанию, доступно и увлекательно для каждого. Программы наполнены практикой, а отдельные курсы подразумевают трекинг проектов слушателей.
В программе весеннего потока Школы — 7 авторских курсов и книжный клуб:
🔵курс Петра Иванова «Введение в методы социологии города»
🔵курс Ольги Максимовой «География для архитекторов»
🔵курс Сергея Царёва «Город и девелопер: поиски партнёрства»
🔵курс Александра Антонова «Пространственное планирование»
🔵курс Дмитрия Лисицина «Социальное проектирование в малых городах»
🔵курс Игоря Стася Urban History
🔵курс Артёма Гебелева «Как создавать среду для людей с собаками в ЖК и общественных пространствах»
🔵Медленный книжный клуб «Читающие города» от Марии Быстровой
Подробнее прочитать о курсах и записаться вы можете уже сейчас на сайте Школы: https://gorodaschool.ru/. Бонусы школы — закрытый нетворк-чат и чаты с преподавателями курсов.
#PhD #humanmobility
Делая PhD, основанный на анализе GPS-локаций людей, я начала задаваться вопросами, которые раньше, при работе с коммерческими данными, не приходили мне в голову:
🔹 Существуют ли стандарты обработки GPS-сигналов для изучения человеческой мобильности?
🔹 Какие ограничения по приватности нужно учитывать при визуализации? Можно ли, например, добавлять на карту дом и работу одного человека?
🔹 Какие валидационные тесты помогут сделать так, чтобы "тебе поверили"?
🔹 Как сделать код полезным для тех, у кого нет доступа к моему датасету?
В поисках ответов я наткнулась на статью, которая лишь подтвердила актуальность проблемы: стандартов нет, но они должны быть выработаны.
🚧 В чем сложность?
1️⃣ Отсутствие открытых мобильных датасетов
Открытых мобильных датасетов почти нет, поэтому большинство исследований строится на коммерческих данных, которые отличаются по структуре, методам сбора и предобработки. Это делает повторение результатов практически невозможным.
📌Примеры доступных датасетов:
- раз
- два
У меня, например, GPS-сигналы уже агрегированы в "стоянки" и "поездки", тогда как большинство исследований работают с сырыми данными. Или, например, в некоторые месяцы в моем датасете нет сигналов с 12:00 до 18:00 – это критично, если копировать чужие методы без адаптации под такие особенности.
2️⃣ Разные задачи → разная предобработка
Кто-то ищет "дом и работу" пользователей, и ему нужны только те, у кого много сигналов, и часть из них ночью. А кто-то изучает "проходимость локаций" и ему нужны максимально сырые данные.
💡В качестве решения авторы называют синтетические данные
🔬 Их создают с помощью нейросетей и агентских моделей на основе транспортных опросов, демографических данных и иногда частично доступных мобильных данных. Модели учат причины и патерны перемещения людей и на их основе генерируют новые траектории.
📌 Примеры исследований:
- OpenPFLOW ( без нейронки)
- SynMob
✅ Плюсы синтетических данных:
✔️ Доступность – их можно строить даже без реальных мобильных данных, нужны лишь классические опросы и метрики населения
✔️ Отсутствие технических артефактов – такие данные не содержат неожиданных пропусков или скачков в сигналах, как реальные данные
❌ Минусы синтетических данных:
⚠️ Зависимость от исходных данных – например, если в Израиле построить такие данные на основе опросов только еврейского населения, не включив арабов, бедуинов, друзов и тд, то картина будет неполной. Хотя тут я должна оговориться, что и мобильные данные передают только то население, у которого есть телефоны.
⚠️ Ограниченность траекторий – модели чаще всего воспроизводят типичные маршруты людей и игнорируют неожиданные отклонения.
⚠️ Шум на индивидуальном уровне – на уровне отдельного человека присутствует много шума, поэтому изучать отдельное поведение по таким данным невозможно
💭 Получается, что несмотря на огромное число статей в сфере human mobility, изданных за последние 10 лет, очень немного было сделано для того, чтобы выработать единый подход в работе с мобильными данными.
Каждая лаборатория изобретает свой велосипед, поскольку практически невозможно повторить другие исследования и сравнить результаты из-за различий в данных и отсутствия детального описания их обработки.
Доступность же таких данных отдана на добрую волю компаний-агрегаторов GPS сигналов или мобильных операторов, поэтому большинство исследователей вообще не имеет к ним доступа и вынуждены изобретать очередной опрос на 100 человек, который никак не отражает реальную ситуацию😔
Делая PhD, основанный на анализе GPS-локаций людей, я начала задаваться вопросами, которые раньше, при работе с коммерческими данными, не приходили мне в голову:
🔹 Существуют ли стандарты обработки GPS-сигналов для изучения человеческой мобильности?
🔹 Какие ограничения по приватности нужно учитывать при визуализации? Можно ли, например, добавлять на карту дом и работу одного человека?
🔹 Какие валидационные тесты помогут сделать так, чтобы "тебе поверили"?
🔹 Как сделать код полезным для тех, у кого нет доступа к моему датасету?
В поисках ответов я наткнулась на статью, которая лишь подтвердила актуальность проблемы: стандартов нет, но они должны быть выработаны.
🚧 В чем сложность?
1️⃣ Отсутствие открытых мобильных датасетов
Открытых мобильных датасетов почти нет, поэтому большинство исследований строится на коммерческих данных, которые отличаются по структуре, методам сбора и предобработки. Это делает повторение результатов практически невозможным.
📌Примеры доступных датасетов:
- раз
- два
У меня, например, GPS-сигналы уже агрегированы в "стоянки" и "поездки", тогда как большинство исследований работают с сырыми данными. Или, например, в некоторые месяцы в моем датасете нет сигналов с 12:00 до 18:00 – это критично, если копировать чужие методы без адаптации под такие особенности.
2️⃣ Разные задачи → разная предобработка
Кто-то ищет "дом и работу" пользователей, и ему нужны только те, у кого много сигналов, и часть из них ночью. А кто-то изучает "проходимость локаций" и ему нужны максимально сырые данные.
💡В качестве решения авторы называют синтетические данные
🔬 Их создают с помощью нейросетей и агентских моделей на основе транспортных опросов, демографических данных и иногда частично доступных мобильных данных. Модели учат причины и патерны перемещения людей и на их основе генерируют новые траектории.
📌 Примеры исследований:
- OpenPFLOW ( без нейронки)
- SynMob
✅ Плюсы синтетических данных:
✔️ Доступность – их можно строить даже без реальных мобильных данных, нужны лишь классические опросы и метрики населения
✔️ Отсутствие технических артефактов – такие данные не содержат неожиданных пропусков или скачков в сигналах, как реальные данные
❌ Минусы синтетических данных:
⚠️ Зависимость от исходных данных – например, если в Израиле построить такие данные на основе опросов только еврейского населения, не включив арабов, бедуинов, друзов и тд, то картина будет неполной. Хотя тут я должна оговориться, что и мобильные данные передают только то население, у которого есть телефоны.
⚠️ Ограниченность траекторий – модели чаще всего воспроизводят типичные маршруты людей и игнорируют неожиданные отклонения.
⚠️ Шум на индивидуальном уровне – на уровне отдельного человека присутствует много шума, поэтому изучать отдельное поведение по таким данным невозможно
💭 Получается, что несмотря на огромное число статей в сфере human mobility, изданных за последние 10 лет, очень немного было сделано для того, чтобы выработать единый подход в работе с мобильными данными.
Каждая лаборатория изобретает свой велосипед, поскольку практически невозможно повторить другие исследования и сравнить результаты из-за различий в данных и отсутствия детального описания их обработки.
Доступность же таких данных отдана на добрую волю компаний-агрегаторов GPS сигналов или мобильных операторов, поэтому большинство исследователей вообще не имеет к ним доступа и вынуждены изобретать очередной опрос на 100 человек, который никак не отражает реальную ситуацию😔
Nature
Enhancing human mobility research with open and standardized datasets
Nature Computational Science - Human mobility research intersects with various disciplines, with profound implications for urban planning, transportation engineering, public health, disaster...
Дополнение к предыдущему посту: если вам интересно содержание упомянутых статей, но нет времени читать, можете послушать подкаст сгенерированный NotebookLM
В путешествиях я давно сделала простой вывод: если в стране приносят бесплатно воду в кафе, а за туалет в общественных местах не надо платить - значит страна экономически развитая, если нет то увы.
К чему я? К тому что ровно такое же правило для меня работает с открытыми данными: если я могу бесплатно и без парсинга получить базовые для геоаналитика данные о составе населения, статистике поездок на ОТ и ценах на жилье в разрезе одного района значит страна развитая, если нет то нет. Причем как технологически, так и экономически. Есть исследования, которые эту связь подтверждают.
Единственное исключение, пожалуй - это страны Commonwealth (бывшие Английские колонии). Так, в Нигерии и Кот-Д'евуаре я нашла детальные данные о соц-экономическом положении населения по зонам переписи(около 4К человек). В России, например, таких данных нет. Происходит это благодаря усилиям ООН, в частности их программам по борьбе с бедностью - чтобы с ней бороться, ее нужно сначала идентифицировать.
Разница в доступности данных напрямую отражается на общении с клиентом или на собеседовании. Так, например,на работе для проектов в Европе, США или ОАЭ мы на 90% рассчитываем на открытые данные, и что интересно, клиенты часто сами подсказывают об их наличии.
А, например, в Индонезии или Бразилии, где детальных открытых данных нет, клиенты смотрят на нас как на волшебников и ждут чуда, что мы откуда-то найдем население и зарплаты деревни в Индонезийской глуши, куда они хотят прокладывать интернет. И если ты ошибаешься на три человека, в доме, где они физически были сами, то все - проекта не будет.
Про собеседования тоже интересно. Мне сегодня рассказали, что при устройстве в Москве на работу геоаналитиком к застройщику проверяли навыки парсинга - то есть никто даже не скрывает, что данные получают нелегально. На мой взгляд - высшая степень отчаяния)
Так вот вопрос: если все и так ходят в общественный туалет, придерживая дверь следующему, чтобы не платить, так почему не сделать его бесплатным?
К чему я? К тому что ровно такое же правило для меня работает с открытыми данными: если я могу бесплатно и без парсинга получить базовые для геоаналитика данные о составе населения, статистике поездок на ОТ и ценах на жилье в разрезе одного района значит страна развитая, если нет то нет. Причем как технологически, так и экономически. Есть исследования, которые эту связь подтверждают.
Единственное исключение, пожалуй - это страны Commonwealth (бывшие Английские колонии). Так, в Нигерии и Кот-Д'евуаре я нашла детальные данные о соц-экономическом положении населения по зонам переписи(около 4К человек). В России, например, таких данных нет. Происходит это благодаря усилиям ООН, в частности их программам по борьбе с бедностью - чтобы с ней бороться, ее нужно сначала идентифицировать.
Разница в доступности данных напрямую отражается на общении с клиентом или на собеседовании. Так, например,на работе для проектов в Европе, США или ОАЭ мы на 90% рассчитываем на открытые данные, и что интересно, клиенты часто сами подсказывают об их наличии.
А, например, в Индонезии или Бразилии, где детальных открытых данных нет, клиенты смотрят на нас как на волшебников и ждут чуда, что мы откуда-то найдем население и зарплаты деревни в Индонезийской глуши, куда они хотят прокладывать интернет. И если ты ошибаешься на три человека, в доме, где они физически были сами, то все - проекта не будет.
Про собеседования тоже интересно. Мне сегодня рассказали, что при устройстве в Москве на работу геоаналитиком к застройщику проверяли навыки парсинга - то есть никто даже не скрывает, что данные получают нелегально. На мой взгляд - высшая степень отчаяния)
Так вот вопрос: если все и так ходят в общественный туалет, придерживая дверь следующему, чтобы не платить, так почему не сделать его бесплатным?
Taylor & Francis
The wealth of (Open Data) nations? Open government data, country-level institutions and entrepreneurial activity
Lately, Open Data (OD) has been promoted by governments around the world as a resource to accelerate innovation within entrepreneurial ventures . However,it remains unclear to what extent OD drives...
Цифровой город глазами тех, кто везёт
Кажется, что вызов такси — дело пары кликов. Но за интерфейсом приложения скрывается человек: уставший, сосредоточенный, иногда раздражённый. Он вынужден постоянно справляться со сбоями навигатора, путаницей в адресах и неожиданными просьбами пассажиров.
Студентки НИУ ВШЭ поговорили с московскими таксистами и создали интерактивную ментальную карту города — такой, какой её видят водители. Можно кликать на объекты, читать короткие наблюдения и посмотреть, как технологии изменили профессию таксиста сегодня.
Сайт можно посмотреть с ноутбука или с телефона в горизонтальном положении. Примерное время чтения: ~15 минут.
Исследовать карту и читать лонгрид: https://tinyurl.com/o-gorodah-i-dannyh
Кажется, что вызов такси — дело пары кликов. Но за интерфейсом приложения скрывается человек: уставший, сосредоточенный, иногда раздражённый. Он вынужден постоянно справляться со сбоями навигатора, путаницей в адресах и неожиданными просьбами пассажиров.
Студентки НИУ ВШЭ поговорили с московскими таксистами и создали интерактивную ментальную карту города — такой, какой её видят водители. Можно кликать на объекты, читать короткие наблюдения и посмотреть, как технологии изменили профессию таксиста сегодня.
Сайт можно посмотреть с ноутбука или с телефона в горизонтальном положении. Примерное время чтения: ~15 минут.
Исследовать карту и читать лонгрид: https://tinyurl.com/o-gorodah-i-dannyh
Анализ Foursquare Places: Точность и Доступность
Наконец, дошли руки потестировать сравнительно новый открытый источник данных о точка интересов (POIs) - Foursquare Places. Это глобальный набор, охватывающий 224 страны. Он содержит информацию о ресторанах, магазинах, достопримечательностях и других объектах, включая местоположение, категории, рейтинги и посещаемость. Верифицируются и обновляются данные волонтёрами, по аналогии с OSM.
🔽 Как получить данные
Данные Foursquare доступны через Amazon Web Services (AWS). Получить их можно несколькими способами:
✔️ Скачать файлы Parquet с помощью командной строки.
✔️ Использовать API (ограничение — 50 POI за запрос).
✔️ Подключиться к базе данных AWS и выполнить SQL-запрос (Athena, Spark, DuckDB).
Я выбрала первый способ, скачав все данные локально и отфильтровав в python нужный регион. Суммарный объем на мир- 11GB, на Израиль - 13MB
📊 Оценка Качества Данных
После загрузки данных я проверила их на дубликаты, устаревшие записи и точность координат.
Основные проблемы:
✔️ 19% точек дублируются (одинаковые ID).
✔️ 30% POI не обновлялись более 10 лет и при рандомной проверке чаще всего не существуют
✔️ Пропущенные значения в координатах и категориях.
✔️ Иногда координаты указывают не на здание, а на дорогу.
Как улучшала данные:
✔️ Удалила дубликаты ( по ID), оставив по одной записи на объект.
✔️ Исключила устаревшие данные(10+ лет)
✔️ Создала confidence score на основе даты обновления и полноты данных.
🔍 Сравнение с Официальным Реестром
Для проверки точности данных я сопоставила их с муниципальной базой зарегистрированных бизнесов в Тель-Авиве.
Для этого :
1. Привела категории Foursquare и реестра к единой системе наименований
2. Проанализировала плотность POI, используя гексагоны (H3).
📊 Результаты для Тель-Авива:
✔️ Официальный реестр содержит на 10% больше точек,
✔️ Foursquare покрывает большую территорию, но совпадает только 53% гексагонов совпадают
✔️ В категориях «Еда» и «Здоровье» и "Коммерция" наибольшая корреляция(~0.7) числа объектов в Foursquare с официальным источником.
✔️Ни в одной из категорий покрытие в Foursquare не превышало 75%
✔️ В Foursquare отсутствуют бизнесы не представленные онлайн, например точки на рынках
✔️ В Foursquare даже если два объекта находятся в одном здании, их координаты будут разными
📌 Вывод
Данные Foursquare Places дают общее представление о распределении POI в городе, но покрытие будет неполным, и чем более редкая категория , тем оно хуже. Поэтому, если полнота данных важна, я бы не стала ограничиваться этим источником. При этом для сравнения локаций, где относительные значения важнее абсолютных, он подойдет.
Ссылки на код: очистка данных, сравнение
Наконец, дошли руки потестировать сравнительно новый открытый источник данных о точка интересов (POIs) - Foursquare Places. Это глобальный набор, охватывающий 224 страны. Он содержит информацию о ресторанах, магазинах, достопримечательностях и других объектах, включая местоположение, категории, рейтинги и посещаемость. Верифицируются и обновляются данные волонтёрами, по аналогии с OSM.
🔽 Как получить данные
Данные Foursquare доступны через Amazon Web Services (AWS). Получить их можно несколькими способами:
✔️ Скачать файлы Parquet с помощью командной строки.
✔️ Использовать API (ограничение — 50 POI за запрос).
✔️ Подключиться к базе данных AWS и выполнить SQL-запрос (Athena, Spark, DuckDB).
Я выбрала первый способ, скачав все данные локально и отфильтровав в python нужный регион. Суммарный объем на мир- 11GB, на Израиль - 13MB
📊 Оценка Качества Данных
После загрузки данных я проверила их на дубликаты, устаревшие записи и точность координат.
Основные проблемы:
✔️ 19% точек дублируются (одинаковые ID).
✔️ 30% POI не обновлялись более 10 лет и при рандомной проверке чаще всего не существуют
✔️ Пропущенные значения в координатах и категориях.
✔️ Иногда координаты указывают не на здание, а на дорогу.
Как улучшала данные:
✔️ Удалила дубликаты ( по ID), оставив по одной записи на объект.
✔️ Исключила устаревшие данные(10+ лет)
✔️ Создала confidence score на основе даты обновления и полноты данных.
🔍 Сравнение с Официальным Реестром
Для проверки точности данных я сопоставила их с муниципальной базой зарегистрированных бизнесов в Тель-Авиве.
Для этого :
1. Привела категории Foursquare и реестра к единой системе наименований
2. Проанализировала плотность POI, используя гексагоны (H3).
📊 Результаты для Тель-Авива:
✔️ Официальный реестр содержит на 10% больше точек,
✔️ Foursquare покрывает большую территорию, но совпадает только 53% гексагонов совпадают
✔️ В категориях «Еда» и «Здоровье» и "Коммерция" наибольшая корреляция(~0.7) числа объектов в Foursquare с официальным источником.
✔️Ни в одной из категорий покрытие в Foursquare не превышало 75%
✔️ В Foursquare отсутствуют бизнесы не представленные онлайн, например точки на рынках
✔️ В Foursquare даже если два объекта находятся в одном здании, их координаты будут разными
📌 Вывод
Данные Foursquare Places дают общее представление о распределении POI в городе, но покрытие будет неполным, и чем более редкая категория , тем оно хуже. Поэтому, если полнота данных важна, я бы не стала ограничиваться этим источником. При этом для сравнения локаций, где относительные значения важнее абсолютных, он подойдет.
Ссылки на код: очистка данных, сравнение
Foursquare Open Source
OS Places | Foursquare Open Source
Access, explore, and contribute to Foursquare's open source point of interest dataset for geospatial projects and location-based apps.
#course_geoanalytics
✨Новости про курс и запуск пилота
Давно тут не было новостей про курс. Я знаю, что многие ждут новый поток, поэтому делюсь новостями немного заранее.
Дело в том, я решила попробовать новый формат: вместо одного большого интенсивного курса, я решила выпустить серию тематических курсов, полностью онлайн, которые можно проходить в любом удобном темпе.
Поддержка при этом остается в телеграм канале, и дополнительно ввиде консультаций со мной и другими экспертами.
💡Почему новый формат?
Проведя 4 набора, я сделала следующие наблюдения:
📌1. Время
Очень небольшое количество людей, готово закомититься на 9 недель интенсивной работы по вечерам и выходным. Даже у самых замотивированных есть работа, семья, экзамены, которые могут отвлечь от курса, а вернуться в темп уже сложно
📌2. Гибкость структуры
У каждого слушателя курса есть своя цель и мотивация, поэтому получив необходимые, на их взгляд, знания, они перестают проходить курс дальше
📌3. Разный начальный уровень
На курс приходят слушатели с разным бекграундом, поэтому на разные аспекты курса им требуется разное время. Кому-то нужно подробнее остановится на метриках и базовой аналитике, кому-то на системах координат и пространственных операциях
💻Онлайн-формат, решает эти проблемы:
1. Время - можно проходить в любом темпе и делать перерывы
2. Гибкость - благодаря тому, что теперь информация будет разбита на несколько курсов, можно сразу перейти к интересующей теме, или наоборот изучить только основы
3. Уровень - я добавила в курс множество ссылок на открытые курсы, туториалы и документации, которые помогут закрыть пробелы в отдельных темах.
❓Только ли плюсы есть у такого формата
Один из основных вопросов, который я получала при обсуждении нового формата - как проверить себя, если нет проверки от эксперта?
Решения проблемы следующие:
- в каждом ноутбуке я оставила практические домашние задания, ответы на которые надо ввести в тестах. То есть вы точно узнаете, правильно или нет вы решили задачу.
- если есть вопрос, то его можно спросить в телеграм, как и раньше.
Полагаю, что спустя какое-то время сформируется база вопросов-ответов, которая будет решать большинство проблем.
-на крайний случай всегда есть опция индивидуальных консультаций
🚀 Как записаться
Сейчас готов первый курс "Основы пространственного анализа в Python".
Но как аналитик, я хочу его протестировать прежде, чем открывать для всех
Поэтому я ищу 3х человек, которые:
— пройдут курс с 50% скидкой
— будут делиться фидбеком после каждого блока
— закончат до 1 июня (это около 5 недель)
Для всех остальных я планирую открыть запись на курс в середине июня.
Посмотреть подробнее и оставить заявку на участие в пилоте тут
✨Новости про курс и запуск пилота
Давно тут не было новостей про курс. Я знаю, что многие ждут новый поток, поэтому делюсь новостями немного заранее.
Дело в том, я решила попробовать новый формат: вместо одного большого интенсивного курса, я решила выпустить серию тематических курсов, полностью онлайн, которые можно проходить в любом удобном темпе.
Поддержка при этом остается в телеграм канале, и дополнительно ввиде консультаций со мной и другими экспертами.
💡Почему новый формат?
Проведя 4 набора, я сделала следующие наблюдения:
📌1. Время
Очень небольшое количество людей, готово закомититься на 9 недель интенсивной работы по вечерам и выходным. Даже у самых замотивированных есть работа, семья, экзамены, которые могут отвлечь от курса, а вернуться в темп уже сложно
📌2. Гибкость структуры
У каждого слушателя курса есть своя цель и мотивация, поэтому получив необходимые, на их взгляд, знания, они перестают проходить курс дальше
📌3. Разный начальный уровень
На курс приходят слушатели с разным бекграундом, поэтому на разные аспекты курса им требуется разное время. Кому-то нужно подробнее остановится на метриках и базовой аналитике, кому-то на системах координат и пространственных операциях
💻Онлайн-формат, решает эти проблемы:
1. Время - можно проходить в любом темпе и делать перерывы
2. Гибкость - благодаря тому, что теперь информация будет разбита на несколько курсов, можно сразу перейти к интересующей теме, или наоборот изучить только основы
3. Уровень - я добавила в курс множество ссылок на открытые курсы, туториалы и документации, которые помогут закрыть пробелы в отдельных темах.
❓Только ли плюсы есть у такого формата
Один из основных вопросов, который я получала при обсуждении нового формата - как проверить себя, если нет проверки от эксперта?
Решения проблемы следующие:
- в каждом ноутбуке я оставила практические домашние задания, ответы на которые надо ввести в тестах. То есть вы точно узнаете, правильно или нет вы решили задачу.
- если есть вопрос, то его можно спросить в телеграм, как и раньше.
Полагаю, что спустя какое-то время сформируется база вопросов-ответов, которая будет решать большинство проблем.
-на крайний случай всегда есть опция индивидуальных консультаций
🚀 Как записаться
Сейчас готов первый курс "Основы пространственного анализа в Python".
Но как аналитик, я хочу его протестировать прежде, чем открывать для всех
Поэтому я ищу 3х человек, которые:
— пройдут курс с 50% скидкой
— будут делиться фидбеком после каждого блока
— закончат до 1 июня (это около 5 недель)
Для всех остальных я планирую открыть запись на курс в середине июня.
Посмотреть подробнее и оставить заявку на участие в пилоте тут
geopython.su
Онлайн-курсы Пространственный анализ и моделирование на Python