Telegram Group & Telegram Channel
#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ad_research/401
Create:
Last Update:

#статистика_для_котиков

Эти интервалы не внушают доверия

Привет, коллега!

В прошлый раз мы говорили про стандартную ошибку среднего (SEM) и тех редких случаях, когда её всё же можно использовать для оценки разброса. Но даже если у тебя нет кучи выборок с n<30, а есть всего лишь одна, SEM можно использовать для расчёта доверительных интервалов для математического ожидания. Однако, у использования именно такого метода есть два ограничения: выборка должна быть достаточно большая (больше 30 значений) и дисперсия генеральной совокупности должна быть известна. Последний пункт в исследованиях выполняется редко, однако дисперсия очень большой выборки примерно равна дисперсии генеральной совокупности и эти два параметра сходятся 🤫

Итак, откуда же берутся доверительные интервалы. Вспомним сначала предыдущий пост: если из генеральной совокупности с количественными непрерывными данными, имеющей любое распределение, извлекать выборки размером n>30, то средние значения этих бесконечных выборок сформируют своё распределение, которое будет нормальным, его среднее будет равно математическому ожиданию генеральной совокупности (μ), а стандартное отклонение будет равно SEM (дисперсия генеральной совокупности, делённая на корень из количества значений выборки).

Теперь собственно будем в этом самом нормальном распределении выборочных средних существовать. Помнишь, я писала про замечательное свойство нормального распределения, именуемое "правилом трёх сигм"? Его тоже сейчас придётся вспомнить, а особенно тот факт, что 95,45% значений нормальной выборки лежат в пределах 2 стандартных отклонений (σ) от математического ожидания, а 99,73% в пределах трёх σ. Для нашего распределения выборочных средних σ это SEM.

Но все эти сотые доли после запятой - вещь не слишком удобная 🤢, поэтому по функции нормального распределения мы легко можем пересчитать в каких пределах окажутся ровно 95 и 99% значений выборки. Так вот, 95% значений лежит в пределах μ±1,96⋅SEM, а 99% в пределах μ±2,58⋅SEM.

Теперь смотри какая магия 🪄 Если мы те же самые 1,96⋅SEM отстроим в обе стороны уже не от математического ожидания, а от любого другого выборочного среднего (например, твоего экспериментального), то с какой-то долей вероятности в этот интервал попадёт и математического ожидание. Догадываешься с какой? Конечно же с 95%. Это простая геометрия, мы буквально двигаем интервал влево и вправо от математического ожидания. И только для тех 5% выборочных средних, которые не попали в изначально заданный интервал μ±1,96⋅SEM, математическое ожидание не попадёт в этот смещённый отрезок.

UPD: То есть, если мы проведём бесконечное количество экспериментов и для каждого выборочного среднего постоим доверительный интервал, то в 95% случаев в этот интервал попадёт математическое ожидание генеральной совокупности. Изначально я дала иное определение, которое вызвало бурную реакцию в комментариях, поэтому приняла решение изменить пост. Однако общее определение любого доверительного интервала я оставлю: Доверительный интервал — это интервал, который строится на основе случайной выборки и содержит неизвестный параметр генеральной совокупности с заданной вероятностью.

В плане графического представления данных доверительные интервалы иногда лучше, чем различные меры разброса, так как они описывают не отдельную выборку, а уже касаются генеральной совокупности. Стоит отметить, что доверительные интервалы существуют и для разности средних, медианы, для долей, для пропорций, для регрессий и много чего ещё. И некоторые из них когда-нибудь получат свой отдельный пост.

Возможно сейчас я вдохновила тебя на использование доверительных интервалов в работе, но не забывай про ограничения, которое я упомянула в начале поста: как минимум выборка должна быть достаточно большой, а в идеале должна быть известна дисперсия генеральной совокупности 😕 Но что делать, если такую выборку ну никак не получить? Не считать доверительные интервалы? К счастью, статистики придумали решение и это расчёт доверительных интервалов через распределение Стьюдента, о котором я расскажу в следующий раз.

BY АДовый рисёрч




Share with your friend now:
group-telegram.com/ad_research/401

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from nl


Telegram АДовый рисёрч
FROM American