Telegram Group & Telegram Channel
Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML



group-telegram.com/reliable_ml/145
Create:
Last Update:

Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML

BY Reliable ML


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/reliable_ml/145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching.
from pl


Telegram Reliable ML
FROM American