Telegram Group & Telegram Channel
Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.

1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).

2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.

3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.

Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?

Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.


А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.



group-telegram.com/stats_for_science/13
Create:
Last Update:

Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.

1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).

2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.

3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.

Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?

Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.


А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.

BY Статистика и R в науке и аналитике


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/stats_for_science/13

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from us


Telegram Статистика и R в науке и аналитике
FROM American