Telegram Group Search
Выделяем аномалии в числовых данных с помощью медианного отклонения.

Эта заметка будет полезна тем, кто занимается анализом числовых данных. В ней вы узнаете, как найти выбросы в данных, не используя среднее и стандартное отклонение. Также мы обойдемся без межквартильного интервала.

-------

Выброс в числовых данных — это значение, которое сильно отличается от большинства других значений в наборе. Выброс может возникнуть из-за ошибки в измерениях, а может фиксировать реальное экстремальное значение. К выбросу можно отнести как очень большое, так и очень маленькое значение.

Так как же найти такой выброс?

-------

Представим себе участок шоссе, на котором камера фиксирует количество автомобилей, проезжающих за одну минуту. Камера связана со светофором на ближайшем перекрестке. И если число автомобилей становится аномально большим, она включает красный свет.

Пусть камера зафиксировала следующие значения:

5, 6, 4, 1, 1, 8, 8, 6, 12, 2, 5.

На глаз видно, что 12 — это выброс. Но как алгоритмически определить, что число автомобилей, проехавших за минуту, является выбросом?

» Среднее и стандартное отклонение.

В мире, где распределение значений удовлетворяет условию нормальности, выбросы находят при помощи среднего (AVG) и стандартного отклонения (STD). От среднего отнимают или прибавляют станд. откл., умноженное на коэффициент k.

min = AVG - k STD,
max = AVG + k STD.

Обычно k = 3 — это то самое правило трех сигм, о котором многие слышали. (Есть еще правило шести сигм, но о нем как-нибудь потом поговорим.) Все значения, меньшие или большие найденных границ, считаются выбросами.

Для нашей выборки:
AVG = 5,27
STD = 3,32
min = -4,69
max = 15,23

Так как {вся выборка} < max, то этот способ выбросов не зафиксировал.

» Межквартильный размах.

В мире ненормально распределенных значений данных для выявления выбросов используют межквартильный размах (IQR). Он равен разнице между третьим и первым квартилями.

IQR = Q3 - Q1.

Для определения граничных значений межквартильный размах отнимают или прибавляют к медиане (MED), умноженной на коэффициент k. Обычно принимают k = 1,5.

min = MED - k IQR,
max = MED + k IQR.

Тогда для нашей выборки получатся следующие величины:

MED = 5
IQR = 4
min = 0,5
max = 14,5

То есть такой способ тоже выбросов не зафиксировал.

» Медианное отклонение.

В реальном мире, где не работает ни первый, ни второй способ, используют медианное отклонение. Для этого находят медиану (MED), затем из каждой величины вычитают медиану и берут модуль от полученной разницы, затем вновь находят медиану новой выборки.

У нас MED = 5.

Абсолютные значения разницы между медианой и данными следующие:

исходные = 5, 6, 4, 1, 1, 8, 8, 6, 12, 2, 5
минус MED = 0, 1, 1, 4, 4, 3, 3, 1, 7, 3, 0.

Теперь найдем медиану новых данных:

MED1 = 3

Затем умножим ее на специальную константу 1,4826, что даст нам аналог стандартного отклонения:

MED2 = 1,4826 ∙ 3 = 4,44.

И вот теперь определим граничный диапазон, вне которого находятся выбросы:

min = MED - k MED2,
max = MED + k MED2,

где k = 3.

Для наших данных получим:
min = 0,55
max = 9,44.

И выбросом оказывается число 12. То есть как только камера насчитает 12 автомобилей в минуту, она включит светофор.

-------

Описанный алгоритм применим для непрерывно поступающих значений. В этом случае необходимо учитывать только значения из узкого окна, считая выбросами величины, превосходящие пороговую величину. На рисунке показан пример работы алгоритма на динамически поступающих данных. Он прекрасно зафиксировал как аномально высокие, так и аномально низкие величины.

Из графика следует, что медианное отклонение можно использовать для выявления аномалий в любой области. Например, таким способом мы можем выявить аномальное количество посетителей на сайте, или аномальный спрос на определенный товар, либо найти аномальные транзакции между банковскими счетами, либо найти дни, с аномальными значениями температуры.

-------
Метод медианного отклонения прекрасно работает и на смещенных выборках. А что делать, если наше распределение является бимодальным — двувершинным? В том случае используют детектор выбросов, основанный на двойном медианном отклонении — doubleMAD outlier detector.

На этом у меня все.

#ёжик_пишет #алгоритмы #математическая_статистика
Дорогие коллеги! С Праздником на праздничной неделе!!

Недавно на одном из наших потоков был досрочный экзамен по математическому анализу, на который преподаватели семинаров могли пригласить студентов, которые наиболее отличились в текущем семестре. К сожалению, иногда их выбор был, мягко говоря, немного странным..

Я вызываю одну девушку. Она рассказывает билет и отвечает на дополнительные вопросы достаточно посредственно. Задаю ей вопрос: сформулируйте теорему об интегрируемости композиции функций. Девушка пишет на листочке: пусть f,g \in R. Я немного напрягся, т.к. композиция двух интегрируемых функций может быть и не интегрируема. Собственно говоря, мой следующий вопрос заключался в том, чтобы построить такой пример... Но дальше на листочке стали появляться совсем чуднЫе вещи:
Пусть f,g \in R. Тогда:
- интеграл от суммы/разности двух функций есть сумма/разность интегралов.
- интеграл от произведения двух функций есть произведение интегралов (!)
- интеграл от частного двух функций есть частное интегралов (!!)

Я сразу вспомнил бородатый мем, который мы предлагаем в этом посте :))

#ёжик_развлекается
Несколько лет назад коллега жаловался мне, что его студенты в группе не понимают даже базовых основ во многих темах. Я была убеждена, что уж основы-то объяснить можно каждому, даже ребенку. Чтобы подтвердить свою точку зрения, я изготовила самодельную "детскую" книжку об интегралах Римана и Лебега и показала ее коллеге. Ему понравилось)
Книжка дальше коллеги никуда не пошла, но спустя года два-три у меня была группа с несколькими слабыми студентами. Специально для них я записала "малышковую" версию дифференцирования ФНП, и больше, конечно, никто не путался: https://youtu.be/T0G_TTqTZl4
На этом бы и закончить мою историю, но в любой сказке должен быть окончательный хэппи-энд. Мы с коллегами рассматривали применение наших наработок к моделированию морских биосистем, и математические модели натолкнули меня на морскую романтику. Я поняла, что существует масса книг о китах, косатках, дельфинах, но кое-кого напрочь забыли. Так родилась рукопись моей детской книги о тюленях "Тюлень Ластик и его друзья", впервые увидевшая свет в мае! На последних двух фото - именно она. Помимо фактов и стихов, там есть еще и задания для детей - и математическая задачка среди них! Так и замкнулся детско-математический круг)

В первое воскресенье лета предлагаю расслабиться и посмотреть на высшую математику чуть менее вдумчиво)
Дорогие коллеги!

Какое-то время тому назад мы на «Ёжике» каждое воскресенье подводили итоги недели и даже публиковали список вышедших за неделю постов. Но что-то эта практика не прижилась, и мы её закончили. Если вы считаете, что мы поступили неправильно, пожалуйста, напишите в комментариях!

Но на этой неделе произошло важное событие, о котором мы не можем не написать, и в честь него постараемся подвести мини-итоги нашей работы.

Итак, конкурс новых авторов «Ёжика» завершён! По его итогам мы принимаем в свой коллектив трёх новых коллег: Сергея Постникова, Ман Дарина и Батьку Джона. По традиции пожелаем коллегам удачи на посту и удачных постов!! Добро пожаловать!

Второе важное событие, о котором мы уже писали в четверг, заключалось в вывешивании таблички «Видеостудия «Ёжик в матане» над нашей аудиторией на факультете ВМК МГУ. Наверное, это первая такая неформальная официальная табличка в этом учебном заведении. Поэтому мне, если честно, немного волнительно, что нас ждёт в дальнейшем. 😊

Ну и третье событие, которое было на этой неделе, — это мероприятие Фонда оригинальных авторов ВК, на которое меня, как владельца нашего паблика, позвали в эту среду. ВКонтакте сняли весьма приятную площадку, пригласили интересных спикеров, очень много авторов. В результате мне удалось прекрасно провести время, познакомиться со многими любопытными авторами блогов и пабликов ВКонтакте, которые были очень расположены для знакомства! Некоторые фотографии вы можете посмотреть в этом посте, а я хотел бы выразить большую благодарность организаторам! Продолжаем развиваться дальше.

Ёжики, вперёд!!

#ёжик_в_матане
#ФОА2025
2025/06/27 22:03:14
Back to Top
HTML Embed Code: