Telegram Group & Telegram Channel
#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/190
Create:
Last Update:

#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/190

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. False news often spreads via public groups, or chats, with potentially fatal effects. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS.
from ms


Telegram АДовый рисёрч
FROM American