Telegram Group & Telegram Channel
#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/401
Create:
Last Update:

#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from kr


Telegram АДовый рисёрч
FROM American