Telegram Group & Telegram Channel
Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML



group-telegram.com/reliable_ml/145
Create:
Last Update:

Необычные значения в данных
Цикл постов о подготовке данных. Пост 3

Продолжаем серию постов, посвященную подготовке данных. Первый пост тут, второй - тут.

Главное, что надо понять про выбросы - откуда они берутся. Какова природа, каков механизм генерации выбросов?

Фреймворк работы с выбросами

- Выявляем необычные точки
- Формулируем гипотезы: как был сгенерирован выброс
- Проверяем гипотезы
- Принимаем решение: интересны ли нам эти случаи
- Выкидываем или трансформируем необычные данные

Примеры

Выявляем необычные точки

Например, анализируя данные о прокате велосипедов, мы можем увидеть заметную часть (несколько процентов) очень коротких поездок. Поездка меньше 60 секунд - очевидно, аномалия.

Формулируем гипотезу: как был сгенерирован выброс

Гипотеза 1: ошибки/отказы. Велосипед был сломан, пользователь увидел это и вернул в прокат.

Гипотеза 2: дождь. Все, кто собирался ехать, отменяют поездки.

Проверяем гипотезы

Гипотеза 1. Скорее всего, таких случаев было много в первые несколько дней сезона, затем мало, и к концу сезона количество отказов постоянно росло. Короткие поездки случаются подряд с одними и теми же велосипедами. Эти предположения можно проверить на имеющихся данных.

Гипотеза 2. Если гипотеза верна, короткие поездки будут сгруппированы по времени и локации, но не привязаны к конкретному велосипеду.

Принимаем решение: интересны ли нам эти случаи

Интересна ли нам аналитика по отказам и нужно ли нам учитывать дождь в аналитике? Общаемся с бизнес-заказчиком и принимаем решение, исходя из целей продукта, над которым работаем.

Выкидываем или трансформируем необычные данные

Если данные не несут дополнительного велью для продукта - можно удалить, если несут, то смотрим пост 2.

Мораль

Для правильной работы с выбросами нужно сформулировать цель анализа и гипотезу о процессе генерации данных, для остального есть инструменты.

Ваш @Reliable ML

BY Reliable ML


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/reliable_ml/145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations.
from ye


Telegram Reliable ML
FROM American