Telegram Group Search
#geoconnect
Всем доброе утро.

Напоминаем, что от тех, кто планирует решать задачу в рамках Geoconnect и зарегистрировался на трек "Дата инсайты", сегодня до конца дня ждём тестовое задание📄.

Без него участвовать в конкурсе не получится🤷‍♀
#phd_insights #intro
Придумала на днях после очередной консультации, что возможно, многим из вас будет интересно узнать про мой PhD трек, про который я толком здесь ничего не написала, хотя с того момента, как желание писать тезис превратилось в осязаемую головную боль, прошел уже год.

Удовлетворять ваше любопытство буду под хештегом #phd_insights. Здесь будет все: от поиска позиции и PhD -рутины до инсайтов и гипотез исследования.

Задача для вас: если вам интересна эта тема - поставьте, пожалуйста, лайк под этим постом, и, если есть пожелания, о чем хотите узнать, пишите, в комментариях
#phd_insights #about

Итак, я уже год считаюсь PhD-соискателем в Hebrew University в Иерусалиме на кафедре географии, что на факультете Social Science: ссылка для тех, кому интересно

Сразу должна оговориться, что мой путь нельзя назвать классическим, поскольку вместе с PhD я продолжаю работать full-time, чего обычно не делают. В моем случае профессор сам помогал мне искать работу - наверное, он что-то знает про академию🤔

Как устроен мой трек:
- Официально заявленный срок моего PhD - 4 года. Профессор говорит, что надо уложиться в 3🤷‍♀️
- Первый год отводится на написание proposal, который потом, нужно защищать перед комиссией, что тоже бывает не у всех. Остальное время на написание и защиту.
- На каждый семестр у меня определено обязательное число учебных часов (кредитов) по предметам, которые мы с научником вместе выбираем. За предмет нужно набрать не менее 70%
- Язык PhD английский, но курсы я могу брать на английском или иврите, что на самом деле переводится так: "в какой-то момент курсы на английском кончатся и придется брать иврит🤦‍♀️"

Подробнее про все это я напишу еще в отдельных постах.

О чем тезис
- Самый сложный на сегодня для меня вопрос, поскольку из-за войны вся учеба сдвинулась на 3 месяца - переводится как "профессор может не отвечать неделями" - и я все еще на стадии proposal.
Но если предположить, что заявленный title сохранится, то он звучит так: "The effect of remote and hybrid working on the urban equilibrium and the chances of post pandemic urban recovery"

Это переводится как: "тему сформулировали модно и широко, чтобы была возможность уточнить, в любую сторону". По факту я надеюсь, что пишу о том, как работа из дома (гибридная или фул-тайм) влияет на баланс спроса и предложения сервисов в разных районах города.
Подробнее про выбор темы и, разумеется, ее идею в следующих постах. Stay tuned
#momepy #landuse

Сейчас по работе решаю задачу выделения в городе разных функциональных зон, а также разделения города на кварталы в зависимости от их уровня экономического развития. Это довольно популярная проблема, когда сервис нацелен на определенную аудиторию, а в регионе структура населения неоднородна.

Я решаю задачу для столицы Нигерии - Лагоса, где по данным World Bank наблюдается чуть ли не самый большой в мире индекс неравенства: трущобы, где люди до сих пор выбрасывают отходы в реку, перемежаются с районами вилл самых богатых людей Африки. Соответственно, мне нужно как минимум научиться отличать первые от вторых, а еще желателно выделять "средний" класс, а также зоны коммерческого и индустриального использования

Из данных:
- building footprints (от microsoft и со спутников)
- дорожный граф из OpenStreetMap
- POIs ( у нас есть скрепер с Google Maps, но можно и из OSM)
- население из HDX по квадратам на 1км
- Скоры на основе переписи населении по уровню покрытия связью и экономическому уровню, рассчитанные на электоральные районы

Как видите никаких мобильных данных или данных о тратах по картам, которые бы хорошо помогли ответить на вопрос об экономической активности населения, нет. Поэтому решать задачу придется полагаясь на гипотезу о различии морфологии бедных, средних и богатых районов.

Для этого я использую python библиотеку momepy, где автор Martin Fleishman собрал все возможные метрики, связанные с описанием расположения зданий в районе. Вот тут можно найти ноутбук с его воркшопа. В комменты поста кинули еще вот такой пример работы с библиотекой.
Все что нужно для работы с библиотекой - это building footprints, код на загрузку улиц за вас уже написан😊 Прикладываю вам для вдохновения красивую картинку, где дома раскрашены по показателю intensity.

Дальше возникает вопрос, что делать с получившимися метриками? Как определить порог, по которому можно отличить районы.

С одной стороны для такого города как Лагос вопрос звучит несложно: в трущобах застройка явно плотнее, чем в богатых районах, а улицы там явно рисовал не urban planner. С другой стороны, а в моем случае требуется точность близкая к единице - ошибиться и предложить клиенту развивать сервис в районах, где нет электричества будет стоить компании как минимум репутации. Кроме того, вопрос land use это не решает

Найти правильный ответ на вопрос мне еще предстоит, а пока делюсь текущими вариантами и источниками

В качестве вдохновения для экспериментов взяла 3 статьи:

1. Статья про выделение трущоб для Найроби (как раз на основе momepy). Тут авторы предлагают обойтись без таргета и сделать иерархическую кластеризацию на основе метрик зданий. Идея хорошая, вопрос в невозможности оценить точность и нет ответа про land use

2. Свежая статья про выделение функциональных зон в 2х районах Сингапура. Авторы решают задачу на основе плотности POI из разных категорий (KDE) и кластеризации. В моем случае частично решает проблему

3. Статья про выделение трущоб в Джакарте на основе Remote Sensing и анализа Street Views. Для меня эта статья интересна возможностью переиспользовать отвалидированные модели, выученные на одной стране, для другой. Риск здесь - различия в морфологии трущоб.

Как будут результаты обязательно поделюсь получившимся решением, а пока держите красивую картинку Лагоса на основе метрики intensity из momepy
Вот обещанная картинка, специально не добавила легенду - попробуйте догадаться, в районах какого цвета больше всего трущоб (разделение не идеально, но показательно)
#geoconnect
Всем привет.

Уже через 20 мин мы будем открывать Geoconnect: неделю задач, мастер-классов и нетворкинга в сфере геоаналитики.

Регистрация на решение задач уже закрыта, но мы ждём всех на мастер-классы и в зум бары 😊🍿🍸

Начинаем в 19:00 МСК
Подключиться тут: https://us06web.zoom.us/j/85652498748.

Группа GeoConnect, если вдруг пропустили: https://www.group-telegram.com/+pJAzMcr6bjZjYmFi
Всем привет!

Сегодня встречаемся в зум-баре в 20:00 ( отличается от обычного зума наличием напитков рядом с участниками). Будем обсуждать, какие скилы сегодня нужны геоаналитику

Поговорим про ваш опыт и про команды, в которых вы работаете. Какие навыки применяете постоянно, а что отложили до лучших времен.

Попробуем составить портрет "Идеального геоаналитика", который я потом пошерю в канале.

Ссылка на зум: https://us06web.zoom.us/j/87638606118?pwd=wTtKiocEMRvNCFrN0F6ag6kjN70Nuk.1
Всех ждем🍹
Глеб провел сегодня шикарный мастер-класс по QGIS.

Если вам нужно получить открытые данные из OSM или другие открытые данные по России, сцепить несколько слоев или обрезать большой датасет в нужных границах, то очень рекомендую посмотреть -быстрее и элегантнее способа я не видела😊
Forwarded from Gleb Romanov
Ребята привет ещё раз) здесь оставляю ссылку на запись мастер-класса по гисам, который сегодня прошёл
https://youtu.be/YefwDgQYpf8

——————
Описание:
QGIS хорошо подходит для того, чтобы быстро посмотреть на данные и сравнить их с другими источниками; Мастер-класс подойдёт дата саентистам (быстрый исследовательский анализ геоданных) и тем, кто имеет мало опыта в QGIS.
На мастер-классе рассказываю про основные элементы QGIS (проекции, панели инструментов, плагины), показывает примеры аналитических и исследовательских запросов (работа с пространственной и табличной выборками, пространственная сцепка - spatial join, буфер и объединение объектов, работа с проекциями).

——————
Полезные ссылки и комментарии:
Плагины: QuickOSM, QuickMapServices, h3 toolkit, lat lon tools
Скачать выгрузку данных ОСМ: https://download.geofabrik.de/
Заинспектить гексы и сравнить разрешения в вебе: https://wolf-h3-viewer.glitch.me/
Forwarded from Inessa Tregubova
Всем привет!

Завтра в 18:00 по МСК будет мой мастер-класс по загрузке и обработке данных в Python (1 час)

Для кого мастер-класс:
- для тех, кто аналитиков или DS, которым нужна помощь в обработке геоданных: как отобразить на карте, как сделать геометрию из 2 полей с координатами и тд

- для тех, кто знает python на базовом уровне, в основном работает в GIS и хочет научиться делать пространственные операции в python

Что потребуется, чтобы повторить мастер-класс:
- установить Анаконду или любую другую среду с Jupyter notebook
- поставить библиотеки geopandas, osmnx, libpysal, shapely

План мастер-класса:
- Загрузка данных из гео и CSV файлов
- Загрузка данных из OSM (osmnx)
- Пространственная сцепка наборов
- Расчеты метрик на уровне дома или соседства
- Стандартизация данных
- Визуализация распределений на карте и графиках

Ссылку пришлем перед началом
Итак, видео и ноутбук со вчерашнего мастер-класса готовы, но поделюсь я ими с вами не здесь, а в своем новом блоге в Boosty.

Я решила попробовать новый формат публикации своих мыслей и наработок: все-таки, телеграм тесноват для разборов кода, плюс это дополнительная мотивация писать регулярно "пока горячо"😊

Первое время буду писать 4 раза в месяц на разные темы от карьеры в геоаналитике до разборов гео методов в Python. Бонусом новостной 5-мин подкаст о всем, что произошло за последнюю неделю и интересно геоаналитику. Если будет интерес, то дальше больше:)

Подписывайтесь и жду ваших комментариев под постами 😉

P.S. Это не значит, что я перестану писать здесь, просто те подробности, про которые вы меня часто спрашиваете, теперь буду в Boosty
О городах и данных pinned «Итак, видео и ноутбук со вчерашнего мастер-класса готовы, но поделюсь я ими с вами не здесь, а в своем новом блоге в Boosty. Я решила попробовать новый формат публикации своих мыслей и наработок: все-таки, телеграм тесноват для разборов кода, плюс это дополнительная…»
Сегодня в 17:30 по Москве проведем Финал GeoConnect.

5 команд финалистов представят свои выводы о влиянии локации на обороты ПВЗ Wildberries.

Мы также разыгрываем приз зрительских симпатий, поэтому вы также сможете поучаствовать в выборе лучших:)

Подключаться по ссылке:
https://us06web.zoom.us/j/84950481688
#phd

Про поиск PHD позиции

Если вы сейчас ищете PhD в гео с уклоном в аналитику, то у себя в блоге собрала список открытых сейчас позиций и инсайты, как искать. Пост доступен по подписке

Итак, идея писать PhD появилась у меня еще со времен магистратуры - мне тогда так понравилось заниматься своим тезисом, что я подумала, что готова закоммититься на 3-4 года не работы ради поиска математического объяснения некой городской проблемы.

Следующие 2 года я с переодически возрастающей активностью следила за открывающимися позициями За это время у меня сложилось некоторое впечатление о " рынке PhD" в целом и о PhD в гео в частности. Дальше все ИМХО, если ваш опыт другой, пишите в комментариях.

Есть 3 типа PhD позиций:

1. Ты ежегодно платишь за программу и сам выбираешь тему. Отбор на них не супер жесткий, если только вы не претендуете на стипендию, которых обычно 1-2 на набор. Большинство таких позиций много в UK. например, как тут.

2. Позиция на проекте в университетской лаборатории. У университета есть грант, в рамках которого они могут набирать себе сотрудников. Вот пример такой программы (кстати дедлайн по заявке 18/12/23). Такая позиция интереснее первой, но и отбор на нее выше.

3. Позиция в университете для проекта на 3ью организацию: компанию и муниципалитет. Здесь компания платит тебе за PhD и у тебя есть четкие обязательства. Редкая штука, на мой взгляд привлекательная для тех, кто не привык исследовать ради исследования:)

Разница в типах PhD не только влияет на отбор (про него я еще напишу отдельно) и финансы, но и на стартовую дату:

В 1-ом случае ориентироваться надо на начало семестра, хотя есть вузы, где начать писать можно в любой момент. Основное время набора: ноябрь - январь

2 и 3ий случай больше похожи на найм, есть четкая дата подачи заявки и дата старта позиции, которая никак не привязана к учебному году. Их можно отслеживать круглый год

Дальше напишу про отбор и мой опыт подачи
Итак, GeoConnect прошел, и мы делимся результатами победителей и финалистов.

ТРЕК KAGGLE COMPETITION:
Задача:
спрогнозировать обороты ПВЗ Wildberries по России и СНГ, используя локации ПВЗ, население и открытые данные

Видео:
Рассказы о том, как победителям удалось получить R2 от 0.3 до 0.61 смотреть тут c 13 минуты

Скоры победителей:
1-ое место. Команда Снеговики. R2=0.613
2- ое место. Команда Spatial. R2 = 0.54433
3-ье место. Команда Новая Папка. R2= 0.30842


ТРЕК ДАТА ИНСАЙТС:
Задача:
Напомню, задача была найти неочевидные пространственные факторы, которые влияют на обороты ПВЗ.

Видео:
Если вам интересно узнать какая связь между кладбищем и заказами в ПВЗ, посмотрите видео: запись тут ( с 18:53)

Презентации победителей и финалистов:
1-ое место - команда "ПВЗ им Шмидта" Ссылка на презентацию

2-ое место - команда LABUDAS
Ссылка на презентацию

Приз зрительских симпатий - команда POST.ERTS
Ссылка на презентацию в канале участника

Финалист- Карим Валиев
Ссылка на презентацию
Финалист - Александра Соколова
Ссылка на презентацию
На #GeoConnect участники не только решали задачу, но и делились опытом.

1. Как модель Хаффа улучшает скор в retail potential models показывал Павел Бурангулов, руководитель компании BestPlace. Расширенная версия модели дала скор близкий к скору победителей, но при этом использовала только пространственные данные
Материалы: Видео (до 15 мин) и Презентация


2. Про решение, занявшее 1-ое место на одном из треков хакатона "Лидеры цифровой трансформации", рассказывал Сергей Абрамов. Полезно послушать и про то какой подход к решению выбрать и как развернуть локальный геосервер.
Материалы: Видео (до 15 мин) и Презентация

3. Опытом использования геоданных в моделях для страхования делился Дмитрий Бочкарев
Материалы: Видео (с 15:30)
Вакансия гео аналитика/ DS в команду Wildberries.
Много данных, интересных пространственных задач и отличная увлеченная команда (знакома с ними лично). Рекомендую👌
Forwarded from Gleb Romanov
Ребята привет) мы ищем геоаналитика к нам в команду, пока решили на сайтах не публиковать и поспрашивать внутри сообщества

Куда: у нас (Wildberries) есть вот эта карта, которую мы постоянно пытаемся сделать лучше. Аналитика в том числе занимается созданием правил по генерации зон (защитных - в которых нельзя ставить ПВЗ, и приоритетных - в которых мы даём бонус при открытии).

Пример решения кейса - вот.
Пример задач:
* Добавить пространственные фичи в модель предсказания оборота (например, посчитать объём нежилых зданий на всё СНГ)
* Написать симуляцию создания заказов, (задача большая, не пугайтесь, со всем поможем) которая бы создавала заказы в домах и генерировала курьеров или клиентов, которые несут заказы из ПВЗ домой (одно из применений - тестирование разных алгоритмов назначения заказов между курьерами)
* Есть ПВЗ с датами открытия и закрытия, оборот по ним, ожидаемый общий прогнозный оборот товаров на март 2024. Нужно: 1. выявить региональный коэффициент годового прироста заказов (март 2023 - март 2024) для каждого региона в отдельности. 2. Учитывая открывшиеся и закрывшиеся за год ПВЗ, предсказать перегруженность конкретных ПВЗ в марте 2024.

Что есть у нас:
Команда (3 геоаналитика, 3 фулстека, все миддл+ или синьоры, у всех большой и интересный опыт, все горят тем, что делают)
Платим 200-250 на руки, хороший офис, в котором дают вкусную бесконечную бесплатную еду, ноутбук можно себе заказать любой (который есть на вб) - компания от него оплатит 40% (остальное - рассрочка на несколько месяцев), но он будет ваш навсегда

Какие у нас есть беды:
* беды с данными - непонятно что откуда куда и почему идёт, везде нужно ходить, узнавать и разбираться
* неразбериха - в целом в компании много хаоса, могут прилетать срочные задачи, которые иногда отодвигают несрочные, но важные проекты

Чего ждём от кандидатов:
* ищем миддл+ (3+ года в программировании и QGIS - каждом по отдельности)
* стек - python (geopandas), PostGIS, QGIS - твёрдый опыт в каждом обязателен
* самостоятельность - всё подскажем, но нужно уметь самому понимать проблему заказчика, преобразовывать в техническое решение, сходить за данными, решить и презентовать кейс
* ищем бодрых ребят (важно), которым интересно заниматься гео (важно)
* хотя бы 2 раза в неделю нужно бывать в офисе в Москве (вам понравится)
* большой плюс если есть опыт в: ML, матстате, osmnx, networkx, momepy

Если хотите попробовать себя - пишите Татьяне с пометкой о том, что вы - кандидат-геоаналитик в команду Рожновской и Романова; Собеседование будет одно на 1.5 часа, где мы совмещаем общую часть с технической, во второй будут код и решение гео-кейсов
2025/03/11 06:55:46
Back to Top
HTML Embed Code: