group-telegram.com/ad_research/297
Last Update:
#статистика_для_котиков
Я всегда считала, что мои шутки про статистику выше среднего, но, похоже, это была стандартная ошибка
Привет, коллега!
Когда-то я писала о мерах разброса и говорила, что такая вещь как стандартная ошибка среднего (SEM) не может использоваться как мера разброса. Штош, думаю теперь ты готов узнать почему.
Представь себе распределение зарплат всех-всех учёных в России. Как ты скорее всего догадываешься, оно будет ассиметричным. Теперь представь, что ты решил ездить на разные конференции и опрашивать по 50 учёных на каждой, узнавая какая у них зарплата
А теперь смотри какая крутая штука. Если ты возьмёшь все эти выборочные средние и сформируешь из них свою выборку с блекджеком и переменными, то она будет иметь нормальное распределение
Это следует из центральной предельной теоремы, которая гласит, что сумма большого количества слабо зависимых случайных величин имеет распределение, близкое к нормальному. Очень важно, что для работы этой теоремы мы должны опрашивать прям много учёных на каждой конференции, то есть n в выборках должно быть достаточно большим, иначе нормального распределения не будет. Условная граница стоит на 30 значениях: если их меньше - сорян, центральная предельная теорема не работает
Наше новое распределение будем называть распределением выборочных средних. Так вот, как и у любого нормального распределения у него есть среднее и стандартное отклонение. В идеальной ситуации, где мы опросили по 50 учёных на бесконечном количестве конференций
Получается, если ты делаешь биологические повторности, то это тоже самое, что опросить учёных только на одной конференции и SEM как мера разброса для них будет попросту некорректна. И только для выборки из средних по многим независимым экспериментам, в каждом из которых будет более 30 биологических повторностей, можно использовать SEM. Но, если честно, я пока не встречала таких работ
И что же получается, SEM это какая-то гипотетическая характеристика сферических коней в вакууме и она никому не нужна? Конечно же нет, без неё не получится рассчитать доверительные интервалы, о которых я расскажу уже в следующем посте про статистику.