Telegram Group & Telegram Channel
#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/190
Create:
Last Update:

#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/190

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Anastasia Vlasova/Getty Images
from br


Telegram АДовый рисёрч
FROM American