Telegram Group & Telegram Channel
#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/190
Create:
Last Update:

#статистика_для_котиков

Разбросали тут свои данные...

Привет, коллега!

В прошлый раз мы говорили об описательной статистике и мерах центральной тенденции. И продолжая эту тему сегодняшний пост про меры разброса. На графиках разброс данных чаще всего отражается с помощью планок погрешностей или, как их ещё называют, усов.

Мне хотелось бы оговорить одну важную вещь: меры разброса выполняют именно описательную функцию, то есть они призваны показать читателю, какие у вас были данные. А данные бывают очень разные 🖤🤍❤️, какие-то более однородное, какие-то менее и разбросы тоже будут отличаться. Но я знаю, что многие исследователи выбирают не более репрезентативный вариант представления размаха, а такой, чтобы усы были как можно короче. Так вот, для поиска различий размер усов не важен. Важен размер эффекта, мощность критерия и величина p и да, на них будет влиять разброс данных. Но от того, что ты нарисуешь усишки покороче, ситуация не изменится. Так что рисуй репрезентативные усы и не пугайся их размера 🐈‍⬛

Зачем вообще нужны меры разброса. Вспомним лабу из предыдущего поста (лаба 1). Там зарплата завлаба была 500к рублей, внс 60к, мнс 40к и два лаборанта получали по 10к. Теперь представим, что в соседнем НИИ есть такая же лаба (лаба 2), но там завлаб получает 200к, внс 180к, мнс 120к и лаборанты по 60к рублей. Среднее значение зарплат будет одинаковым, 124 тысячи, для отчётов самое то. Но мы, конечно, уже умные и знаем, что можно посчитать медиану и обнаружить некоторое неравенство условий 🤔 И неравенство заключается как раз в разбросе. Как его описывают

🟢Размах. Это разница между максимальным и минимальным значением. В лабе 1 он составит 490 тысяч, а в лабе 2 - 140. Разница очевидна. В целом, в качестве усов размах используется редко, но лично я рекомендую его в первую очередь для представления таких дискретных данных как баллы, если градаций не очень много.

🟢Дисперсия. Это средний квадрат отклонения значений выборки от её среднего значения и по сути характеризует как далеко от своего среднего находятся данные. Дисперсия измеряется в квадратных единицах, в нашем случае рубль в квадрате. Мало того, что величина странная, так и на одном графике с обычными рублями её не нарисуешь. Поэтому для планок погрешностей используют

🟢Стандартное (среднеквадратичное отклонение) отклонение - квадратный корень из дисперсии. В лабе 1 оно составит 211к рублей, а в лабе 2 всего 64к, то есть хорошо видно, что разброс данных в первом случае куда более значительный. В качестве усов стандартное отклонение отстраивается симметрично в обе стороны от среднего и в этом заключается его проблема. Распределение выборок-то не всегда симметрично и для таких случаев использование стандартного отклонения будет некорректным, поскольку оно не выполняет главную функцию: не описывает данные и их распределение. Для дискретных данных стандартное отклонение также нельзя использовать, так как получится бред вроде 1.5±0,34 землекопа 😒

🟢Процентили. N процентиль это такое число, при котором N % значений выборки будет меньше его. Чаще всего используют 5 и 95 процентиль в качестве отрицательной и положительной планки погрешности, реже 10 и 90, 1 и 99, 2.5 и 97.5. На малых выборках процентиль не используется, его просто не из чего считать 🤷‍♂️

🟢Квантили. По сути тоже самое, что процентиль, но в долях от 1.

🟢Квартили. Делят выборку на 4 части, то есть 1 квартиль отсекает 25% выборки, 2 квартиль - 50 (и по сути это медиана), 3 - 75%. Разница между 3 и 1 квартилью называется интерквартильный размах, а сами 1 и 3 квартиль чаще всего и используются в качестве усов для несимметричных и дискретных данных. Квартили не так чувствительны к выбросам, как стандартное отклонение.

〰️〰️
Так что запоминай: если данные непрерывные, распределены симметрично, то можешь использовать среднее и стандартное отклонение. Во всех остальных случаях лучше медиану и квартили, реже другие перечисленные меры разброса.

А если мы посмотрим на наши лабы, то корректная характеристика такая: зарплата в лабе 1 40[10;45] тысяч рублей, а в лабе 2 - 120[60;135]. В какую пойдёшь работать?

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/190

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

At the start of 2018, the company attempted to launch an Initial Coin Offering (ICO) which would enable it to enable payments (and earn the cash that comes from doing so). The initial signals were promising, especially given Telegram’s user base is already fairly crypto-savvy. It raised an initial tranche of cash – worth more than a billion dollars – to help develop the coin before opening sales to the public. Unfortunately, third-party sales of coins bought in those initial fundraising rounds raised the ire of the SEC, which brought the hammer down on the whole operation. In 2020, officials ordered Telegram to pay a fine of $18.5 million and hand back much of the cash that it had raised. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth."
from jp


Telegram АДовый рисёрч
FROM American