#статистика_для_котиков

АДовый рисёрч

#статистика_для_котиков

Я всегда считала, что мои шутки про статистику выше среднего, но, похоже, это была стандартная ошибка

Привет, коллега!

Когда-то я писала о мерах разброса и говорила, что такая вещь как стандартная ошибка среднего (SEM) не может использоваться как мера разброса. Штош, думаю теперь ты готов узнать почему.

Представь себе распределение зарплат всех-всех учёных в России. Как ты скорее всего догадываешься, оно будет ассиметричным. Теперь представь, что ты решил ездить на разные конференции и опрашивать по 50 учёных на каждой, узнавая какая у них зарплата ❓ Каждая конференция - это отдельная выборка с одинаковым количеством значений в ней. И для каждой выборки ты можешь посчитать выборочное среднее.

А теперь смотри какая крутая штука. Если ты возьмёшь все эти выборочные средние и сформируешь из них свою выборку с ~~блекджеком и переменными~~, то она будет иметь нормальное распределение 🌈 Независимо от того, какое распределение имела генеральная совокупность.

Это следует из центральной предельной теоремы, которая гласит, что сумма большого количества слабо зависимых случайных величин имеет распределение, близкое к нормальному. Очень важно, что для работы этой теоремы мы должны опрашивать прям много учёных на каждой конференции, то есть n в выборках должно быть достаточно большим, иначе нормального распределения не будет. Условная граница стоит на 30 значениях: если их меньше - сорян, центральная предельная теорема не работает 😪

Наше новое распределение будем называть распределением выборочных средних. Так вот, как и у любого нормального распределения у него есть среднее и стандартное отклонение. В идеальной ситуации, где мы опросили по 50 учёных на бесконечном количестве конференций и не обанкротили наш институт, среднее распределения выборочных средних будет равно математическому ожиданию генеральной совокупности. В нашем случае - средней зарплате всех-всех учёных. А стандартное отклонение будет рассчитываться как стандартное отклонение генеральной совокупности, делённое на корень из количества значений в выборках, (в нашем случае из 50). И вот это стандартное отклонение распределения выборочных средних и называется стандартной ошибкой среднего (standard error mean, SEM)

Получается, если ты делаешь биологические повторности, то это тоже самое, что опросить учёных только на одной конференции и SEM как мера разброса для них будет попросту некорректна. И только для выборки из средних по многим независимым экспериментам, в каждом из которых будет более 30 биологических повторностей, можно использовать SEM. Но, если честно, я пока не встречала таких работ 🤷‍♂️

И что же получается, SEM это какая-то гипотетическая характеристика сферических коней в вакууме и она никому не нужна? Конечно же нет, без неё не получится рассчитать доверительные интервалы, о которых я расскажу уже в следующем посте про статистику.

Please open Telegram to view this post

VIEW IN TELEGRAM

www.group-telegram.com/ru/ad_research.com/297

2.9K viewsedited Nov 12 at 05:49

group-telegram.com/ad_research/297

Create: 2024-11-12
Last Update: 2024-12-26 00:43:20

Telegram | DID YOU KNOW?

#статистика_для_котиков