Telegram Group & Telegram Channel
Разговор про выбросы часто выглядит чрезвычайно куцо.
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.

Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.

Теперь слайды.

На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.

Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.

Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.

Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.

Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.

#statistics



group-telegram.com/choking_data/36
Create:
Last Update:

Разговор про выбросы часто выглядит чрезвычайно куцо.
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.

Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.

Теперь слайды.

На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.

Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.

Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.

Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.

Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.

#statistics

BY душно про дату





Share with your friend now:
group-telegram.com/choking_data/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels."
from tr


Telegram душно про дату
FROM American