Notice: file_put_contents(): Write of 5693 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13885 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Статистика и R в науке и аналитике | Telegram Webview: stats_for_science/9 -
Telegram Group & Telegram Channel
Методы ресемплинга как альтернатива методам классической статистики.

Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.

Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.

Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).

Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.

Продолжение в следующем посте =>



group-telegram.com/stats_for_science/9
Create:
Last Update:

Методы ресемплинга как альтернатива методам классической статистики.

Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.

Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.

Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).

Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.

Продолжение в следующем посте =>

BY Статистика и R в науке и аналитике


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/stats_for_science/9

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today."
from ru


Telegram Статистика и R в науке и аналитике
FROM American