Telegram Group & Telegram Channel
#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/401
Create:
Last Update:

#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted.
from us


Telegram АДовый рисёрч
FROM American