Telegram Group Search
🛜 Страны мира с наибольшим числом людей, лишенных доступа к интернету

Индия лидирует по числу людей, не имеющих доступа к интернету – 684 миллиона (48% населения страны). На втором месте – Китай, где вне сети остаются 336 миллионов человек (24%).

В Африке наибольшая доля населения без интернета зафиксирована в Эфиопии – 81%, в Уганде – 73%, а в Демократической Республике Конго – 71%. В Танзании, Нигерии и Бангладеш около 55% населения также не подключены к сети.

Основные причины такого разрыва – недостаток инфраструктуры, высокая стоимость подключения и бедность, особенно в сельской местности.
Я тут осознала, что очень отстала от жизни. Почему? Потому что до Гошиного поста про новую Urban Foundation Model от Google, никогда про них не слышала - а судя по этой статье, за последние 2 года их популярность стремительно набирает обороты, и есть уже модели под самые различные задачи от прогноза загруженности дорог до анализа потребления электричества. Точнее их прелесть в том, что одна такая модель может помочь решить обе задачи, и еще пару 10тков других.

Вобщем, я очень эксайтед попробовать дообучить одну из таких моделей либо под рабочую, либо под PhD задачу, но это займет время. Поэтому пока написала открытый пост у себя в boosty с тем, чтобы немного разобраться в концепции foundation models в гео.

И да, если у кого-то есть опыт разработки или использования такой модели, поделитесь. Очень интересно
в тему foundation models
Forwarded from Geoalert Blog
While there is a constantly growing number of publications about the integration of large models (#LLMs, Visual language models) with spatial apps—both academic and marketing 😎we added our two bits from solving real business cases.
Next time you see a lot of comments under another LinkedIn post featuring #geoai and #arcgis as a game changer of this integration, take a deep breath and remind yourself about hitting the target. 😃
Forwarded from Gleb Romanov
Ребята привет! Ищем геоаналитика в юнит открытий ПВЗ компании Wildberries.

Задача команды геоаналитики - понимать, сколько мы хотим открывать ПВЗ и в каких местах + как смотивировать собственников на открытие именно в нужной для нас точке. Продукт, который служит достижению этой цели - карта открытий (часть алгоритмов под капотом этой карты написала команда геоаналитики).
Цель по открытиям достигается через набор моделей (предсказание оборота старых и новых ПВЗ, перегруза, вероятности открытия, расходов и доходов собственника и ВБ и других).
Вам предстоит заниматься как написанием новых и развитием существующих моделей (выдвижение гипотез, построение фичей и таргета, анализ результата и корректировка модели, построение финального пайплайна), так и ad hoc запросами от бизнеса (пример: проанализировать распределение оборотов в малых городах стран СНГ, подготовить предложения по изменению параметров зон карты в этих городах, защитить результат перед бизнесом).

Мы ожидаем, что у вас есть:
* Уровень от middle и выше (3+ года в программировании и QGIS - каждом по отдельности);
* Опыт работы с python (geopandas), PostGIS, QGIS;
* Знание и практическое применение мат. статистики и алгоритмов ML;
* Самостоятельность (готовность понять проблему заказчика и преобразовать в техническое решение);
* Интерес к геоаналитике, желание развиваться в этой сфере;
* Будет плюсом опыт в: osmnx, networkx, momepy.

Мы предлагаем:
* Сложные интересные исследовательские задачи, менторство и команду аналитиков, которым не всё равно;
* Гибридный формат работы в Москве (2 раза в неделю встречаемся в офисе на м. Тульская);

Для связи пишите Виктории @VSH_job (скажите, что пришли через канал Инессы Трегубовой - ребята с такой рекомендацией проходят облегчённый первичный скриннинг)
​​# PhD #mobiledata

Давно не было тут новостей про мой PhD, а работа тем временем кипит. Я завела проект на гитхаб, где можно следить за работой:)

Теперь пара слов о том, что я делаю.

В работе я исследую влияние удаленной работы на экономику городских районов. Моя гипотеза в том, что люди, которые часть времени работают из дома стали менее чувствительны к времени, которое заменяет дорога на работу, но при этом больше обращают внимание на доступность сервисов, кафе, магазинов вокруг дома. И такое поведение меняет экономику городских районов.

Свою гипотезу я проверяю на центральном районе Израиля, где большинство рабочих мест и развлечений сосредоточено в Тель-Авиве, а спальные кварталы расположены вокруг, в городах-спутниках.

Так вот, за последние два месяца я сделала первые шаги для того, чтобы оценить долю удаленьщиков в кварталах городов центра Израиля. Точнее измерить как менялся ее уровень с 2019 по 2023 год.

Мне повезло получить данные о GPS-локациях от компании Habidatum, поэтому измерения я делаю на мобильных сигналах, что должно дать мне результат более точный, чем опросы.

Почему "первые шаги"? Потому что с учётом размера данных каждый месяц приходится обрабатывать по-отдельности и потому что оценка удаленки оказалась не такой простой, как в теории. Пока я научилась с уверенностью находить дом и работу юзеров на каждый месяц данных- это было тоже непросто. Код можно найти на гитхаб, большой текст про подход у меня в бусти.

Знаю, что большинство читать не будут), поэтому кратко тут:
- правила о времени и частоте сигналов дома и на работе сработали лучше кластеризации;
- сначала пришлось найти дом и из оставшихся локаций работу;
- корреляция домашних локаций с населением 0.65
- ошибка первого рода рабочих локаций и официальных рабочих зон 4%.

Про так, как в итоге получилось посчитать долю работы из дома, напишу в следующих постах. А пока, можете пожелать мне удачи😊
Если вам вдруг станет скучно отдыхать на выходных, рекомендую почитать посты на этом ресурсе.

Авторы, 3 профессора из университетов США и Испании, разбирают академические статьи ( в основном behavioral science) с целью поиска в них фрода при работе с данными. Они пытаются повторить шаги исследователей на расширенной выборке или другими стат методами и проверить получается ли такой же результат как в статье. Один из авторов подал на них в суд иск на 25млн долларов - так что все серьезно:)

На мой взгляд очень полезное чтение с точки зрения понимания подводных камней при разработке дизайна исследования.
На днях коллега на работе рассказал, что установил себе Cursor AI, и теперь и код и документацию стало писать гораздо проще.. чем с ChatGPT🙄

Я тоже установила ( выглядит один в один как Visual Studio Code) и второй день кайфую: дописывает код по аналогии, ищет ошибки в логике внутри как отдельного файла, так и всего проекта, создаёт описание итд. В общем пока сплошные плюсы. Посмотрим потребует ли он в какой-то момент денег, но пока все бесплатно.

И я понимаю,что вокруг еще множество других AI инструментов, делающих рутину менее рутинной.

Поэтому мне очень интересно, какими инструментами кроме chatgpt пользуетесь вы и для каких задач. Напишите, в комментариях:) Получившийся список выложу отдельным постом.
Planet AI Symposium 30-го января

Выглядит как что -то интересное, хотя программы я не нашла. Точно известно, что про AI и гео, что бесплатно и что онлайн)
В тему полезных AI. За последнее время слышала про NotebookLM хорошие отзывы уже от четырех человек
Audio
Ты уже послушал подкаст про свою научную статью?

Звучит немного странно, но я вот слушаю прямо сейчас.

Как? Загружаю pdf своей статьи или какого-то научного обзора или даже учебника в систему, задаю примерный фокус и стиль обсуждения, и через несколько минут получаю натуральный подкаст, в котором двое ведущих с интересом обсуждают мою работу.

Послушайте файл, это просто вау! Тут, например, обсуждают нашу статью про наночастицы золота в ситаллах.

Отдельный восторг, что в этот разговор можно включиться и задавать голосом свои вопросы «ведущим», а те будут отвечать.

Кто делает эту магию? Платформа NotebookLM от Google, причем абсолютно бесплатно.

«Аудиопересказ» - это лишь одна из фишек. Главная функция в том, чтобы извлекать нужные данные одновременно из разных источников, сравнивать их между собой и писать тексты на основе данных.

К примеру, можно загрузить несколько файлов статей, позадавать вопросы и попросить сформулировать различия в методах исследования или в полученных результатах. С учебником удобно работать разбирая разные главы: создавать саммари и вопросы для проверки.

Важно, что система выдает ссылки на те части документа, откуда она взяла информацию. То есть нет не только «галлюцинаций», но еще и понятно, какая часть статьи была обработана для ответа.

В общем пока NotebookLM - это самый топ для ученых и преподавателей из всего «ИИ-многообразия», что я видел. (Работает только на компьютере и только с VPN).

P.S. пост взят у @shakhgildyan (почему-то не отразилось при перессылке)
Анализ гео-сферы 2024 года по результатам опроса

Осенью 2024 года мы провели опрос ГИС-специалистов, и сегодня публикуем первую часть его результатов. В ней общая информация про опрос и тех, кто принял участие.

Из кого состоит наша сфера, и какие выводы можно по этому делать? Какие есть перспективы? С каким образованием и в каких компаниях работают люди?
Читайте в статье "Анализ гео-сферы 2024. Часть 1: знакомство со сферой геотехнологий" ⚡️

Спасибо всем, кто участвовал в опросе и кто поделился им!
Мы продолжим оформлять материал в статьи с графиками и делиться информацией, которая поможет делать более осознанные карьерные решения.
Как и обещала, продолжаю делиться с вами новостями моего PhD 🎓
(нравится оно вам или нет 😃)

Последний раз я остановилась на том, что мне удалось найти домашние и рабочие локации юзеров по их GPS-координатам, записанным в период 01/2019–09/2023.
С того момента я сделала три попытки оценить месячный уровень удаленной работы и хочу вкратце поделиться с вами результатами.

📌 Код можно найти у меня на GitHub

---

🔹 Идея 1:
📍 Удаленка = _доля домашних сигналов, случившихся в рабочие часы (11:00–16:00)_

🔸 Результат:
📊 При таком расчете уровень удаленки оказался самым высоким в 2019 г. и самым низким в месяцы локдауна (04–05/2020).

Почему
🔹 В месяцах разная доля сигналов в рабочие часы.
🔹 В ковидные месяцы почти все сигналы записаны либо рано утром, либо поздно вечером.

---

🔹 Идея 2:
📍 Удаленка = _доля рабочих часов (11:00–16:00), в которые сигналы получены из домашней локации._
_Месяцы с низким числом рабочих часов исключены._

🔸 Результат:
📊 Сильный рост удаленки во второй локдаун (09/2020), но уровень удаленки в 2019 выше, чем в 2023.

Почему
🔹 У юзеров разная частота рабочих часов внутри месяца.
🔹 Одна случайная домашняя локация в 11:00 при отсутствии других сигналов днем → доля удаленки = 100%.
🔹 Индивидуальные рабочие графики могут отличаться.

---

🔹 Идея 3:
📍 Удаленка = _доля часов, в которые у юзера вероятность быть на работе выше, чем в любой другой локации, но фактически он находился дома._
_При этом ни в один час того же дня юзер не посещал офис._

🔹 Как?
Используем Bayesian conditional probability :

P(O|h) = P(O) * P(h|O) / P(h)
где:
- P(O|h)- вероятность для юзера быть в офисе в конкретный час невыходного дня с 8 утра до 7 вечера
- P(O) — доля офисных часов в дни посещения офиса.
- P(h) — доля конкретного часа в офисные дни.
- P(h|O) — доля конкретного часа среди часов с сигналом из офиса в офисные дни.

Удаленка определяется как:
P(O|h) > P(H|h) & P(O|h) > P(3rdP|h)& Home Location
где:
- P(H|h) — вероятность для юзера быть дома в конкретный час.
- P(3rdP|h) — вероятность для юзера быть в третьей локации в конкретный час.

🔸 Результат:
📊 Резкий рост удаленки в период 04/2020–10/2020, постепенное снижение в 2021–2023, но доля все еще выше, чем в 2019.
​​Качество проверено на собственном опыте:)

Онлайн-школа урбанистики и городских исследований «Города» приглашает вас на курсы в марте!

Преподаватели Школы — специалисты, которые получили уникальные знания в полях и создали авторские курсы. Занятия проходят онлайн, по заранее известному расписанию, доступно и увлекательно для каждого. Программы наполнены практикой, а отдельные курсы подразумевают трекинг проектов слушателей.

В программе весеннего потока Школы — 7 авторских курсов и книжный клуб:
🔵курс Петра Иванова «Введение в методы социологии города»
🔵курс Ольги Максимовой «География для архитекторов»
🔵курс Сергея Царёва «Город и девелопер: поиски партнёрства»
🔵курс Александра Антонова «Пространственное планирование»
🔵курс Дмитрия Лисицина «Социальное проектирование в малых городах»
🔵курс Игоря Стася Urban History
🔵курс Артёма Гебелева «Как создавать среду для людей с собаками в ЖК и общественных пространствах»
🔵Медленный книжный клуб «Читающие города» от Марии Быстровой

Подробнее прочитать о курсах и записаться вы можете уже сейчас на сайте Школы: https://gorodaschool.ru/. Бонусы школы — закрытый нетворк-чат и чаты с преподавателями курсов.
#PhD #humanmobility

Делая PhD, основанный на анализе GPS-локаций людей, я начала задаваться вопросами, которые раньше, при работе с коммерческими данными, не приходили мне в голову:

🔹 Существуют ли стандарты обработки GPS-сигналов для изучения человеческой мобильности?

🔹 Какие ограничения по приватности нужно учитывать при визуализации? Можно ли, например, добавлять на карту дом и работу одного человека?

🔹 Какие валидационные тесты помогут сделать так, чтобы "тебе поверили"?

🔹 Как сделать код полезным для тех, у кого нет доступа к моему датасету?

В поисках ответов я наткнулась на статью, которая лишь подтвердила актуальность проблемы: стандартов нет, но они должны быть выработаны.

🚧 В чем сложность?

1️⃣ Отсутствие открытых мобильных датасетов

Открытых мобильных датасетов почти нет, поэтому большинство исследований строится на коммерческих данных, которые отличаются по структуре, методам сбора и предобработки. Это делает повторение результатов практически невозможным.

📌Примеры доступных датасетов:
- раз
- два

У меня, например, GPS-сигналы уже агрегированы в "стоянки" и "поездки", тогда как большинство исследований работают с сырыми данными. Или, например, в некоторые месяцы в моем датасете нет сигналов с 12:00 до 18:00 – это критично, если копировать чужие методы без адаптации под такие особенности.

2️⃣ Разные задачи → разная предобработка

Кто-то ищет "дом и работу" пользователей, и ему нужны только те, у кого много сигналов, и часть из них ночью. А кто-то изучает "проходимость локаций" и ему нужны максимально сырые данные.

💡В качестве решения авторы называют синтетические данные

🔬 Их создают с помощью нейросетей и агентских моделей на основе транспортных опросов, демографических данных и иногда частично доступных мобильных данных. Модели учат причины и патерны перемещения людей и на их основе генерируют новые траектории.

📌 Примеры исследований:
- OpenPFLOW ( без нейронки)
- SynMob

Плюсы синтетических данных:
✔️ Доступность – их можно строить даже без реальных мобильных данных, нужны лишь классические опросы и метрики населения

✔️ Отсутствие технических артефактов – такие данные не содержат неожиданных пропусков или скачков в сигналах, как реальные данные

Минусы синтетических данных:
⚠️ Зависимость от исходных данных – например, если в Израиле построить такие данные на основе опросов только еврейского населения, не включив арабов, бедуинов, друзов и тд, то картина будет неполной. Хотя тут я должна оговориться, что и мобильные данные передают только то население, у которого есть телефоны.
⚠️ Ограниченность траекторий – модели чаще всего воспроизводят типичные маршруты людей и игнорируют неожиданные отклонения.
⚠️ Шум на индивидуальном уровне – на уровне отдельного человека присутствует много шума, поэтому изучать отдельное поведение по таким данным невозможно

💭 Получается, что несмотря на огромное число статей в сфере human mobility, изданных за последние 10 лет, очень немного было сделано для того, чтобы выработать единый подход в работе с мобильными данными.

Каждая лаборатория изобретает свой велосипед, поскольку практически невозможно повторить другие исследования и сравнить результаты из-за различий в данных и отсутствия детального описания их обработки.

Доступность же таких данных отдана на добрую волю компаний-агрегаторов GPS сигналов или мобильных операторов, поэтому большинство исследователей вообще не имеет к ним доступа и вынуждены изобретать очередной опрос на 100 человек, который никак не отражает реальную ситуацию😔
Дополнение к предыдущему посту: если вам интересно содержание упомянутых статей, но нет времени читать, можете послушать подкаст сгенерированный NotebookLM
В путешествиях я давно сделала простой вывод: если в стране приносят бесплатно воду в кафе, а за туалет в общественных местах не надо платить - значит страна экономически развитая, если нет то увы.

К чему я? К тому что ровно такое же правило для меня работает с открытыми данными: если я могу бесплатно и без парсинга получить базовые для геоаналитика данные о составе населения, статистике поездок на ОТ и ценах на жилье в разрезе одного района значит страна развитая, если нет то нет. Причем как технологически, так и экономически. Есть исследования, которые эту связь подтверждают.

Единственное исключение, пожалуй - это страны Commonwealth (бывшие Английские колонии). Так, в Нигерии и Кот-Д'евуаре я нашла детальные данные о соц-экономическом положении населения по зонам переписи(около 4К человек). В России, например, таких данных нет. Происходит это благодаря усилиям ООН, в частности их программам по борьбе с бедностью - чтобы с ней бороться, ее нужно сначала идентифицировать.

Разница в доступности данных напрямую отражается на общении с клиентом или на собеседовании. Так, например,на работе для проектов в Европе, США или ОАЭ мы на 90% рассчитываем на открытые данные, и что интересно, клиенты часто сами подсказывают об их наличии.

А, например, в Индонезии или Бразилии, где детальных открытых данных нет, клиенты смотрят на нас как на волшебников и ждут чуда, что мы откуда-то найдем население и зарплаты деревни в Индонезийской глуши, куда они хотят прокладывать интернет. И если ты ошибаешься на три человека, в доме, где они физически были сами, то все - проекта не будет.

Про собеседования тоже интересно. Мне сегодня рассказали, что при устройстве в Москве на работу геоаналитиком к застройщику проверяли навыки парсинга - то есть никто даже не скрывает, что данные получают нелегально. На мой взгляд - высшая степень отчаяния)

Так вот вопрос: если все и так ходят в общественный туалет, придерживая дверь следующему, чтобы не платить, так почему не сделать его бесплатным?
Цифровой город глазами тех, кто везёт

Кажется, что вызов такси — дело пары кликов. Но за интерфейсом приложения скрывается человек: уставший, сосредоточенный, иногда раздражённый. Он вынужден постоянно справляться со сбоями навигатора, путаницей в адресах и неожиданными просьбами пассажиров.

Студентки НИУ ВШЭ поговорили с московскими таксистами и создали интерактивную ментальную карту города — такой, какой её видят водители. Можно кликать на объекты, читать короткие наблюдения и посмотреть, как технологии изменили профессию таксиста сегодня.

Сайт можно посмотреть с ноутбука или с телефона в горизонтальном положении. Примерное время чтения: ~15 минут.

Исследовать карту и читать лонгрид: https://tinyurl.com/o-gorodah-i-dannyh
Анализ Foursquare Places: Точность и Доступность

Наконец, дошли руки потестировать сравнительно новый открытый источник данных о точка интересов (POIs) - Foursquare Places. Это глобальный набор, охватывающий 224 страны. Он содержит информацию о ресторанах, магазинах, достопримечательностях и других объектах, включая местоположение, категории, рейтинги и посещаемость. Верифицируются и обновляются данные волонтёрами, по аналогии с OSM.

🔽 Как получить данные

Данные Foursquare доступны через Amazon Web Services (AWS). Получить их можно несколькими способами:

✔️ Скачать файлы Parquet с помощью командной строки.

✔️ Использовать API (ограничение — 50 POI за запрос).

✔️ Подключиться к базе данных AWS и выполнить SQL-запрос (Athena, Spark, DuckDB).

Я выбрала первый способ, скачав все данные локально и отфильтровав в python нужный регион. Суммарный объем на мир- 11GB, на Израиль - 13MB

📊 Оценка Качества Данных

После загрузки данных я проверила их на дубликаты, устаревшие записи и точность координат.

Основные проблемы:
✔️ 19% точек дублируются (одинаковые ID).
✔️ 30% POI не обновлялись более 10 лет и при рандомной проверке чаще всего не существуют
✔️ Пропущенные значения в координатах и категориях.
✔️ Иногда координаты указывают не на здание, а на дорогу.

Как улучшала данные:

✔️ Удалила дубликаты ( по ID), оставив по одной записи на объект.
✔️ Исключила устаревшие данные(10+ лет)
✔️ Создала confidence score на основе даты обновления и полноты данных.

🔍 Сравнение с Официальным Реестром

Для проверки точности данных я сопоставила их с муниципальной базой зарегистрированных бизнесов в Тель-Авиве.

Для этого :

1. Привела категории Foursquare и реестра к единой системе наименований
2. Проанализировала плотность POI, используя гексагоны (H3).

📊 Результаты для Тель-Авива:
✔️ Официальный реестр содержит на 10% больше точек,

✔️ Foursquare покрывает большую территорию, но совпадает только 53% гексагонов совпадают

✔️ В категориях «Еда» и «Здоровье» и "Коммерция" наибольшая корреляция(~0.7) числа объектов в Foursquare с официальным источником.

✔️Ни в одной из категорий покрытие в Foursquare не превышало 75%

✔️ В Foursquare отсутствуют бизнесы не представленные онлайн, например точки на рынках

✔️ В Foursquare даже если два объекта находятся в одном здании, их координаты будут разными

📌 Вывод
Данные Foursquare Places дают общее представление о распределении POI в городе, но покрытие будет неполным, и чем более редкая категория , тем оно хуже. Поэтому, если полнота данных важна, я бы не стала ограничиваться этим источником. При этом для сравнения локаций, где относительные значения важнее абсолютных, он подойдет.

Ссылки на код: очистка данных, сравнение
#course_geoanalytics

Новости про курс и запуск пилота

Давно тут не было новостей про курс. Я знаю, что многие ждут новый поток, поэтому делюсь новостями немного заранее.

Дело в том, я решила попробовать новый формат: вместо одного большого интенсивного курса, я решила выпустить серию тематических курсов, полностью онлайн, которые можно проходить в любом удобном темпе.

Поддержка при этом остается в телеграм канале, и дополнительно ввиде консультаций со мной и другими экспертами.

💡Почему новый формат?

Проведя 4 набора, я сделала следующие наблюдения:

📌1. Время
Очень небольшое количество людей, готово закомититься на 9 недель интенсивной работы по вечерам и выходным. Даже у самых замотивированных есть работа, семья, экзамены, которые могут отвлечь от курса, а вернуться в темп уже сложно

📌2. Гибкость структуры
У каждого слушателя курса есть своя цель и мотивация, поэтому получив необходимые, на их взгляд, знания, они перестают проходить курс дальше

📌3. Разный начальный уровень
На курс приходят слушатели с разным бекграундом, поэтому на разные аспекты курса им требуется разное время. Кому-то нужно подробнее остановится на метриках и базовой аналитике, кому-то на системах координат и пространственных операциях

💻Онлайн-формат, решает эти проблемы:

1. Время - можно проходить в любом темпе и делать перерывы

2. Гибкость - благодаря тому, что теперь информация будет разбита на несколько курсов, можно сразу перейти к интересующей теме, или наоборот изучить только основы

3. Уровень - я добавила в курс множество ссылок на открытые курсы, туториалы и документации, которые помогут закрыть пробелы в отдельных темах.

Только ли плюсы есть у такого формата

Один из основных вопросов, который я получала при обсуждении нового формата - как проверить себя, если нет проверки от эксперта?

Решения проблемы следующие:

- в каждом ноутбуке я оставила практические домашние задания, ответы на которые надо ввести в тестах. То есть вы точно узнаете, правильно или нет вы решили задачу.

- если есть вопрос, то его можно спросить в телеграм, как и раньше.
Полагаю, что спустя какое-то время сформируется база вопросов-ответов, которая будет решать большинство проблем.

-на крайний случай всегда есть опция индивидуальных консультаций

🚀 Как записаться

Сейчас готов первый курс "Основы пространственного анализа в Python".

Но как аналитик, я хочу его протестировать прежде, чем открывать для всех

Поэтому я ищу человек, которые:
— пройдут курс с 50% скидкой
— будут делиться фидбеком после каждого блока
— закончат до 1 июня (это около 5 недель)

Для всех остальных я планирую открыть запись на курс в середине июня.

Посмотреть подробнее и оставить заявку на участие в пилоте тут
2025/05/12 01:21:02
Back to Top
HTML Embed Code: