Telegram Group Search
Forwarded from Reliable ML
Необычные значения в данных
Цикл постов о подготовке данных. Пост 2

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут.

Как анализировать выбросы: и тут causality

При анализе выбросов нужно проверять, нет ли взаимосвязи между выбросами в одной из компонент и другими признаками. По аналогии с пропущенными значениями, где обычно выделяют случаи MCAR, MAR, и MNAR, выбросы можно разделить на:

- Outlier Completely At Random - аномальное значение одного из признаков никак не связано с значениями других признаков. Скорее всего, эту точку данных нужно выкинуть. Пример - при медицинском осмотре сотрудников иногда барахлил автоматический тонометр, ошибка полностью случайна.

- Outlier At Random - аномальное значение одного из признаков можно объяснить другими признаками. Например, мальчиков и девочек на медосмотре смотрели разные врачи - и врач, смотревший мальчиков, был менее внимателен и чаще ошибался. Такие выбросы можно считать пропущенными значениями и, возможно, импутировать, S. Jager(2021).

- Outlier Not At Random - аномальное значение, зависящее от значения признака. Например, люди с большими доходами иногда занижают их в опросах, а с маленькими - завышают. Тогда выявленная аномалия - сама по себе важный признак. А еще это может быть не выброс, а редкий случай,.

Подходы и инструменты для выявления выбросов

Для выявления выбросов используют много подходов.

Наиболее общий из них - ошибка реконструкции автоэнкодером. Автоэнкодер выучивает прямую и обратную проекции в пространство меньшей размерности. Если исследуемый пример после кодирования и обратного декодирования значительно изменился, можно предположить, что распределение, на котором обучался автоэнкодер, отличается от распределения, из которого был получен рассматриваемый пример. Подробнее, например, тут.

Другой популярный подход базируется на том, что необычные значения легко отделить от остальных. Пример такого подхода - IsolationForest.

Хороший обзор подходов к детекции выбросов есть в лекциях MIT от 2023 г. и статьях А. Дьяконова, кое-что есть в 4й лекции нашего курса по ML System Design, современные подходы собраны в обзоре PapersWithCode по Anomaly Detection.

Есть хорошие библиотеки Luminaire и PyOD. PyOD - удобный конструктор детекторов аномалий. В Luminaire много интересных подходов на основе структурных моделей, в том числе прекрасный подход для работы с временными рядами.

В следующем посте цикла мы подытожим теоретическую часть небольшим фреймворком - руководством по работе с выбросами на основе примеров из практики.

Ваш @Reliable ML
Отличный подкаст Анны Микушевой из РЭШ о главной ошибке при анализе данных, в чем особенность эконометрики, что делать, если эксперимент провести нельзя или данных недостаточно
Что такое эконометрика и в чем особенность ее методов? Как с ее помощью экономистам удается даже при неправильных предположениях получать правильные ответы? И в чем главная ошибка людей при анализе данных?

С этими вопросами мы разбираемся в новом выпуске «Экономики на слух» вместе с профессором Массачусетского технологического института и выпускницей РЭШ Анной Микушевой.
 
Слушайте выпуск на всех подкаст-платформах! 💫
Премьер-министр России Михаил Мишустин рассказал о некоторой новой модели госуправления - об отказе от экспертного принятия решений и переходе к постановке задач «на основе достоверных данных».

Что это за "новая модель госуправления"?
- получать информацию напрямую от первоисточника, минуя любых посредников
- учитывать обязательно обратную связь от граждан и бизнеса
- принимать во внимание изменения ситуации, отклонение от планов, от прогнозов.

Какая уж тут доказательная политика. Но все же.

Проблема не в наличии посредников или отклонении от прогнозов, а в отсутствии качественных оценок мер госполитики, заложенных в госпрограммах и нацпроектах (а также регуляторных мер, налоговых и т.д.). В отсутствии учета оценок этих мер в процессе принятия решений - масштабировании, финансировании, корректировке дизайна и реализации. Принятие решений "на основе достоверных данных" не институционализировано, проводимая оценка госпрограмм со стороны МЭР - формальная. Обратная связь от граждан и бизнеса - всего лишь источник информации о потенциальных эффектах. Но не единственный источник.

А вот от экспертного принятия решений отказаться не удастся, но качество и методы работы с экспертным мнением точно нужно бы повышать. В госсекторе мне встречались две крайности - безоговорочное принятие мнения эксперта как истинного и безоговорочное отрицание мнения эксперта как ложного. Крайне редко - оценка экспертности, объективности, социологические исследования с привлечением экспертов, критическое отношение к выводам экспертов.

https://www.kommersant.ru/doc/5953925
Учебник «Прикладной анализ данных в социальных науках» от Яндекса и Европейского университета для тех, кто хочет понимать общую логику и технику анализа данных

https://academy.yandex.ru/handbook/data-analysis
Вот эту дискуссию "Госуправление: между людьми и данными" вполне можно картировать на основе фреймов дискурса "доказательная политика-искусственный интеллект":

от политики на основе ценностей (поддержка искусственного интеллекта, игнорирование доказательной политики)

до риторики техноскептицизма (критика искусственного интеллекта, игнорирование доказательной политики) - "Чтобы получить правильный ответ от машины, нужно заложить правильные вводные, с правильными правилами игры.... в жизни так не бывает, в шахматах - может быть."
Онлайн-интенсив «Разработка ML сервиса: от идеи до прототипа» от Факультета компьютерных наук НИУ ВШЭ - от самого введения в разведывательный анализ данных до оформления результатов модели в виде интерактивного сервиса Streamlit

20-30 июня, бесплатный доступ

https://www.hse.ru/ma/mlds/mlservice/
«С повышением доступности качественных данных и эмпирических инструментов экономисты сегодня имеют возможность проверять свои теории, прежде чем внедрять их. Выгоды от этого в экономике в целом приведут к росту благосостояния людей только в том случае, если правительство действительно будет стремиться в первую очередь поднять качество жизни и достаток населения.»

https://guru.nes.ru/kak-dannyie-nas-obmanyivayut-a-teorii-podvodyat.html
О золотом стандарте в оценке от Алексея Кузьминова - можно ли выделить одну самую лучшую методику (или метод) оценки, к использованию которой должны стремиться все, кто проводит оценку, и на основании которой можно было бы судить о качестве оценки?

О золотом стандарте в оценке от Алексея Кузьмина - можно ли выделить одну самую лучшую методику (или метод) оценки, к использованию которой должны стремиться все, кто проводит оценку, и на основании которой можно было бы судить о качестве оценки?

https://evaluationconsulting.blogspot.com/2023/09/blog-post_22.html?m=1
Мы ищем в нашу команду исследователей с профилем "экономика-эконометрика-анализ данных" для новых проектов Лаборатории Сбериндекс.

Сбериндекс - это исследовательская лаборатория Сбера, которая занимается задачами population inference на основе транзакционных банковских данных. Команда состоит из исследователей (выпускники РЭШ, МФТИ, ВМК) и дата-инженеров с экспертизой источников данных. Наши стратегические задачи - подготовка высококачественных детальных гранулярных данных, сильные исследования с инсайтами о жизни людей, фирм и территорий в РФ.

Наш идеальный кандидат – экономист, математик или статистик с твердыми знаниями в области эконометрики и статистического анализа данных (знает, что такое causal inference, treatment effects, non-probability sample), с опытом участия или руководства (для позиции руководителя команды) исследовательскими проектами со сложной подготовкой данных, с интересом к аналитике финансового и потребительского поведения, к использованию данных для принятия управленческих решений.

Мы в первую очередь ищем лидера проектов с навыками руководства исследованиями со сложной подготовкой данных (пониманием того, что значит "80% времени на подготовку данных"), опытом вовлечения различных стейкхолдеров - владельцев данных, пользователей и т.д., умением организовать работу аналитиков.

Но также есть младшие позиции для вчерашних выпускников магистратуры и специалитета, junior-аналитиков. Требования - хорошие знания мат.статистики, экономики, Python, SQL (Apache Spark - знания или готовность освоить).

Что мы можем предложить?
#️⃣ Уникальный проект, ориентированный на амбициозную стратегию, - подготовка детальных датасетов для аналитики и исследований на основе больших данных, генерируемых платежными системами.
#️⃣ Работа с данными различной природы, из различных источников, а также возможность познакомиться с тем, как устроены различные стороны бизнеса банка и технологической компании
#️⃣ Активное взаимодействие с ключевыми экспертами в разных сферах (отраслях, исследовании данных, подготовке решений)
#️⃣ Результаты вашей работы будут иметь реальное влияние на стратегии бизнеса, государства, возможности улучшать условия жизни людей. У вас будет постоянный контакт и обратная связь от руководства.
#️⃣ Достойный уровень оплаты труда.

Ждем резюме и краткое (2-3 абзаца) мотивационное письмо на [email protected]
Неправильные данные: любой ответ в кратчайший срок?

В мире, где данные играют ключевую роль в принятии решений, удивительно часто появляется утверждение "лучше плохие данные/ доказательства, чем вообще никаких".

Понятно, что есть два случая:
◽️ данные ‘плохие’, но есть понимание их ограничений и качества. Тогда аналитика может быть ценной, потому что раскрывает важные механизмы бизнеса, сбои в процессах, выступает в свою очередь фактором улучшения качества данных. Но результаты и выводы должны учитывать качество доказательств. Как правило, градус риторики в этом случае должен ослабляться.
◽️ данные ‘плохие’, нет понимания ограничений качества. Прямая дорога к принятию неверных решений (мусор на входе - мусор на выходе).

Почему люди в принципе стремятся опираться на данные, даже без оглядки на их качество?

Во-первых, текстовая информация, которая сопровождается числовыми данными, создает впечатление объективности, конкретности, точности, измеримости и структурированности. Сам поиск и обработка данных для аргументации занимает время, так что невольно кажется, что аргумент “с данными” вызывает доверие. Кроме того, в науке использование данных - общая практика, так что опора на числовые данные придает ауру научности и профессионализма. Даже без реальной аналитики.

Во-вторых, человек автоматически предпочитает “любые данные, не обязательно качественные” из-за предпочтения определенности. Неопределенность вызывает дискомфорт, чувство определенности и уверенности - желаемое эмоциональное состояние, результат действия непроизвольных механизмов мозга за пределами сознательного выбора и мыслительного процесса. Такие механизмы направлены на снижение когнитивной перегрузки и преодоление парализующего страха неопределенности, это целый ансамбль когнитивных искажений.

Например, организация сталкивается с проблемой (например, неожиданное снижение продаж). Проблема может быть вызвана разными факторами, но реальная причина неизвестна. К тому же, для организации это одна проблема из целого множества, требующих реакции. Потребность в когнитивном закрытии подталкивает к формированию окончательного мнения и быстрому принятию решения. Для этого на практике может подойти самый первый ответ, лежащий на поверхности, если этот ответ подкрепляется хоть какими-то данными. Почему?

Нерешенная проблема создает напряжение, заставляет возвращаться к решению и мешает заниматься другими задачами. Такое наблюдение было описано в исследованиях Б.Зейгарник о том, что люди склонны запоминать незавершенные задачи и стремиться их завершить. Силы, стоящие за этим механизмом поиска “любого ответа в кратчайший срок”, нацелены на быструю адаптацию и высвобождение ресурсов. Но приводят к системному недостатку более глубокого и детального исследования новых или противоречивых данных, а значит к стратегическим рискам ошибочных решений.

Можно ли на организационном уровне полностью избавиться от подобных искажений data-driven решений? Проблему точно нужно решать. Полноценные исследования “на данных” требуют времени, ресурсов и связаны с высокой неопределенностью. Но даже не полное исследование, а его часть может быть полезна - оценка областей риска, генерация гипотез, анализ релевантной литературы, описательные статистики с аккуратной интерпретацией. Одно из потенциальных решений - фокусировка на приоритетных областях и подготовка по ним исследовательской повестки с более длинным горизонтом для получения результата.

Ситуация осложняется тем, что более точная информация сложнее, чем упрощенные и быстрые версии, что требует больше усилий как для понимания, так и для коммуникации. Многим известна проблема, когда человеку легче объяснить, что данных вообще нет, чем что данные есть, но использовать их нельзя из-за низкого качества. Коммуникация качества данных - непростая задача.
Forwarded from Alexey Gazaryan
Спасибо, тема точно есть. Как решение, предлагаю рассматривать два вида доказательств: быстрые и медленные.

Быстрые доказательства - те, что можно найти для решений, которые требуют принятия в диапазоне от трёх часов до месяца.

Медленные - соответственно более месяца.

Если исходно понимать, что для руководителей могут быть необходимы как быстрые, так и медленные, то к этому следует готовиться.

Так, например, для быстрых доказательств хорошего качества - нужна заранее подготовленная база экспертов, реестр исследований по теме, наличие "законсервированных" данных, полученных ранее, во время проведения долгосрочных исследований. Тогда, мы в момент поступления задачи по подготовке аргументов стартуем не с чистого листа.

С медленными доказательствами хорошего качества чуть проще, поскольку время позволяет делать очень многие вещи, вплоть до экспериментов
Ключевая задача оценки или аудита - разработка критериев. Даже если нет подходящих показателей в проекте (федпроекте, госзадании и т.п.), это не означает, что возможность оценки эффектов отсутствует. Собственно, даже если показатель в проекте есть, остается задача, насколько сам проект на самом деле «шевелит» этот показатель.

«Государственное задание Центра и результаты федеральных проектов, в реализации которых он участвует, не содержат параметров, позволяющих оценивать влияние проводимых мероприятий на целевую аудиторию. В связи с этим отсутствует возможность оценки возникающих социальных эффектов, что в свою очередь не позволяет оценить обоснованность масштабов организации мероприятий в сфере молодежной политики».

https://www.group-telegram.com/kuzmalexey/79
Мы ищем аналитика в Сбериндекс для развития портала открытых данных

Сбериндекс - это исследовательская лаборатория Сбера, которая работает над экономической статистикой на основе транзакционных данных банка. Осенью этого года мы начинаем модернизацию сайта открытых данных www.sberindex.ru, которая ориентирована на рост детальности наборов данных и удобство для пользователей. Мы ищем аналитика, которому было бы интересно внедрять передовые практики поставки статистических данных и развивать функциональность портала открытых данных.

Обязанности и функции:
◽️ Проводить анализ передовых практик порталов и стандартов открытых статистических данных , быть заказчиком и консультантом в проектировании и разработке портала открытых данных
◽️ Быть менеджером продукта - администрирование, мониторинг размещения данных, интеграций, инициация изменений, стратегия развития портала и т.д.
◽️ Координировать и организовывать сотрудничество с разработчиками, пользователями, поставщиками данных, исследователями
◽️ Участвовать в разработке дэшбордов, визуализаций данных, лендингов для исследований совместно с аналитиками данных
◽️ Разрабатывать техническую документацию, руководства для пользователей, стандарты лучших практик, схемы рабочих процессов для публикации данных
◽️ Помогать пользователям и владельцам данных, проводить обучение, информировать о работе портала

Требования:
◽️ высшее образование (техническая специальность)
◽️ прикладные навыки использования основных библиотек Python
◽️ знание основ управления данными, баз данных, визуализации данных, опыт работы с API
◽️ знание различных форматов данных (parquet, JSON-Stat, CSV и т.п.) и метаданных
◽️ интерес к стандартам и практикам публикации открытых данных, готовность погружаться в изучение и внедрение лучших практик
◽️ плюсом будут навыки разработки технических требований, знакомство с процессами разработки порталов данных, умение определять потребности пользователей дата-продуктов

Резюме и мотивационное письмо можно направлять на [email protected]
Анализ российских данных на внутрирегиональном уровне осложняется изменениями границ муниципальных образований, изменениями их типов, названий и кодов ОКТМО.

С 2018 по 2024 гг. изменилась муниципальная структура более 40 регионов:
◽️ есть регионы, где все муниципалитеты меняли свои типы - Магаданская и Курганская области, Ставропольский край, ЯНАО, Удмуртия и др.;
◽️есть регионы, где было большое количество изменений границ - Московская область, Пермский край и др. - около 3% муниципалитетов России в 17 регионах.

Масштаб изменений сильно осложняет сбор панельных данных по муниципалитетам. При этом процесс преобразований не прекращается. Но удобных открытых машиночитаемых данных о таких преобразованиях нет.

Поэтому мы собрали базу данных об изменениях муниципалитетов и их границ, теперь можно:
🔸прочитать в статье на habr о проблемах данных на муниципальном уровне и как мы собрали и объединили данные из Росстата и OpenStreetMap;
🔸скачать с сайта СберИндекса версионный справочник муниципальных образований и пространственный слой с границами муниципалитетов с 2018 г.
 
Эта информация может помочь:
◽️ геоаналитикам, заинтересованным в данных о границах муниципальных образований
◽️исследователям, которые работают с муниципальными данными
◽️при проектировании БДПМО 2.0. Росстата
Сила историй: цифры не всегда громче всех, и это полезно знать для бизнеса, СМИ и policy

Я уже писала о примечательной, но противоречивой силе числовых фактов, почти автоматически связанных с доверием и объективностью.

Недавнее экспериментальное исследование показывает, что статистика (количественные данные) и истории (качественный нарратив) по-разному влияют на формирование убеждений [1].

В результате ограничений памяти убеждения частично возвращаются со временем к исходному априорному значению для обоих типов информации. Но исследователи обнаружили различие между статистикой и историями в динамике изменения убеждений: влияние историй на убеждения ослабевает меньше, чем влияние статистики.

◽️ Статистика воспринимается как более информативная и в краткосрочной перспективе (Immediate) оказывает большее влияние на убеждения, чем истории.
◽️ Но со временем (Delay) ситуация меняется: влияние статистики уменьшается, и истории в итоге могут оказывать более сильное воздействие. Величина возврата убеждений к априорному значению более чем в два раза выше для статистики (73%), чем для историй (33%), что указывает на более устойчивое воздействие качественных нарративов на убеждения.

Преимущество историй еще и в том, что истории не только "очеловечивают" абстрактные числа, но и помещают данные в запоминаемый контекст. Истории, обогащенные качественными деталями и семантическими связями, легче вспоминаются: участники эксперимента в 62% случаев правильно вспоминали детали историй по сравнению с 27% для статистики.

[1] Graeber, T., Roth, C., & Zimmermann, F. (2024). Stories, statistics, and memory. The Quarterly Journal of Economics, qjae020.
2025/01/24 06:24:34
Back to Top
HTML Embed Code: