Telegram Group & Telegram Channel
Разговор про выбросы часто выглядит чрезвычайно куцо.
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.

Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.

Теперь слайды.

На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.

Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.

Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.

Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.

Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.

#statistics



group-telegram.com/choking_data/36
Create:
Last Update:

Разговор про выбросы часто выглядит чрезвычайно куцо.
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.

Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.

Теперь слайды.

На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.

Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.

Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.

Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.

Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.

#statistics

BY душно про дату





Share with your friend now:
group-telegram.com/choking_data/36

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world."
from nl


Telegram душно про дату
FROM American