Telegram Group & Telegram Channel
#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/401
Create:
Last Update:

#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from us


Telegram АДовый рисёрч
FROM American