Notice: file_put_contents(): Write of 2338 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 10530 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Reliable ML | Telegram Webview: reliable_ml/145 -
Telegram Group & Telegram Channel
Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML



group-telegram.com/reliable_ml/145
Create:
Last Update:

Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML

BY Reliable ML


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/reliable_ml/145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War."
from us


Telegram Reliable ML
FROM American