Telegram Group & Telegram Channel
#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/190
Create:
Last Update:

#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/190

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from ye


Telegram АДовый рисёрч
FROM American