Notice: file_put_contents(): Write of 2338 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 10530 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Reliable ML | Telegram Webview: reliable_ml/145 -
Telegram Group & Telegram Channel
Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML



group-telegram.com/reliable_ml/145
Create:
Last Update:

Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML

BY Reliable ML


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/reliable_ml/145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. He adds: "Telegram has become my primary news source." A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai.
from hk


Telegram Reliable ML
FROM American