Telegram Group & Telegram Channel
#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/190
Create:
Last Update:

#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/190

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. "We as Ukrainians believe that the truth is on our side, whether it's truth that you're proclaiming about the war and everything else, why would you want to hide it?," he said. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp.
from es


Telegram АДовый рисёрч
FROM American