Немного о Бокс Кокс (Box Cox) трансформации.
Часто распределение экспериментальных данных, с которыми мы сталкиваемся в работе, отличаются от нормальных. При этом большое количество статистических методов в своей математической основе имеют допущение о нормальности распределения значений. Разумеется, существуют непараметрические критерии, которые не обладают таким ограничением, но их мощность (то есть вероятность найти значимые различия, там где они реально есть) в среднем ниже. Поэтому имеет смысл приводить свои данные к нормальному виду.
Бокс Кокс преобразование относится к семейству монотонных преобразований с помощью степенных функций. Идея метода состоит в подборе оптимальной степени (обозначаемой лямбда λ), при возведении в которую данные будут лучше соответствовать нормальному распределению. Обычно лямбда подбирается в диапазоне [-5;5].
Наиболее встречаемые значения параметра: 0, что соответствует логарифму от исходных данных (log(Y)), 0.5, что соответствует квадратному корню (Y0.5 = √(Y)), 1 как линейное преобразование, 2 как квадрат исходных данных (далее куб и четвертая и тд степень). Отрицательные значения: Y^-0.5 = 1/(√(Y)), Y^-1 = 1/Y, Y^-2 = 1/Y^2.
После трансформации необходимо проверить видоизмененные данные на соответствие нормальному распределению графически и с помощью статистических критериев, например теста Шапиро-Уилка.
Стоит обратить внимание, что применение любых видов трансформации может затруднить дальнейшую интерпретацию результатов. Например, в случае работы с линейными моделями, коэффициенты регрессии имеют определенный физический смысл относительно параметров. Можно привести пример: при изменении количества школ в штате на единицу, происходит такое-то изменение уровня образования/числа убийств, или что-то в подобном духе. Интерпретация исходных данных интуитивно понятна. Сложнее будет объяснять, скажем, как количество школ возведенное в степень -1.6 скажется на зависимой переменной и что это может значить. Поэтому с трансформацией необходимо обращаться осторожно и всегда держать в голове возможный физический смысл степенных коэффициентов.
Подробнее с формулами можно ознакомиться здесь: https://www.statisticshowto.com/box-cox-transformation/
Часто распределение экспериментальных данных, с которыми мы сталкиваемся в работе, отличаются от нормальных. При этом большое количество статистических методов в своей математической основе имеют допущение о нормальности распределения значений. Разумеется, существуют непараметрические критерии, которые не обладают таким ограничением, но их мощность (то есть вероятность найти значимые различия, там где они реально есть) в среднем ниже. Поэтому имеет смысл приводить свои данные к нормальному виду.
Бокс Кокс преобразование относится к семейству монотонных преобразований с помощью степенных функций. Идея метода состоит в подборе оптимальной степени (обозначаемой лямбда λ), при возведении в которую данные будут лучше соответствовать нормальному распределению. Обычно лямбда подбирается в диапазоне [-5;5].
Наиболее встречаемые значения параметра: 0, что соответствует логарифму от исходных данных (log(Y)), 0.5, что соответствует квадратному корню (Y0.5 = √(Y)), 1 как линейное преобразование, 2 как квадрат исходных данных (далее куб и четвертая и тд степень). Отрицательные значения: Y^-0.5 = 1/(√(Y)), Y^-1 = 1/Y, Y^-2 = 1/Y^2.
После трансформации необходимо проверить видоизмененные данные на соответствие нормальному распределению графически и с помощью статистических критериев, например теста Шапиро-Уилка.
Стоит обратить внимание, что применение любых видов трансформации может затруднить дальнейшую интерпретацию результатов. Например, в случае работы с линейными моделями, коэффициенты регрессии имеют определенный физический смысл относительно параметров. Можно привести пример: при изменении количества школ в штате на единицу, происходит такое-то изменение уровня образования/числа убийств, или что-то в подобном духе. Интерпретация исходных данных интуитивно понятна. Сложнее будет объяснять, скажем, как количество школ возведенное в степень -1.6 скажется на зависимой переменной и что это может значить. Поэтому с трансформацией необходимо обращаться осторожно и всегда держать в голове возможный физический смысл степенных коэффициентов.
Подробнее с формулами можно ознакомиться здесь: https://www.statisticshowto.com/box-cox-transformation/
Statistics How To
Box Cox Transformation: Definition, Examples
What is a Box Cox transformation? Definition and examples in plain English. What is Lambda in a Box Cox? When you should run the transformation.
О формулах.
Меня часто спрашивают, насколько нужно разбираться в математических основах критериев, если все можно написать в одну строчку в R или любом другом статистическом инструменте. Я думаю так, необходимо всегда понимать общие принципы метода, и в особенности его ограничения и допущения. Точные формулы всегда можно посмотреть на википедии или в оригинальной статье о методе, но они обычно и не нужны, так как нет большого смысла реализовывать вручную то, что уже написано и протестировано большим сообществом ученых, аналитиков и программистов. Важно понимать, например, чем односторонний т-критерий отличается от двустороннего или есть ли разница в порядке написания факторов в многофакторном дисперсионном анализе при несбалансированном дизайне (про это, думаю, будет отдельный пост).
И для понимания этих отличий нужно сравнивать формулы, но часто это уже понятно расписано, правда не всегда на русском языке. Поэтому для успешного освоения методов нужно не бояться формул и понимать формальный язык математики ) (а еще английский)
Меня часто спрашивают, насколько нужно разбираться в математических основах критериев, если все можно написать в одну строчку в R или любом другом статистическом инструменте. Я думаю так, необходимо всегда понимать общие принципы метода, и в особенности его ограничения и допущения. Точные формулы всегда можно посмотреть на википедии или в оригинальной статье о методе, но они обычно и не нужны, так как нет большого смысла реализовывать вручную то, что уже написано и протестировано большим сообществом ученых, аналитиков и программистов. Важно понимать, например, чем односторонний т-критерий отличается от двустороннего или есть ли разница в порядке написания факторов в многофакторном дисперсионном анализе при несбалансированном дизайне (про это, думаю, будет отдельный пост).
И для понимания этих отличий нужно сравнивать формулы, но часто это уже понятно расписано, правда не всегда на русском языке. Поэтому для успешного освоения методов нужно не бояться формул и понимать формальный язык математики ) (а еще английский)
Выбросы!! Что делать?
Не секрет, что во время анализа данных часто наблюдаются аномальные значения, выбросы (аутлайеры, outliers), значительно отличающиеся от всех остальных значений в выборке. Выбросы нарушают нормальность распределения и уменьшают мощность параметрических критериев.
Выбросы - это значения, отличающиеся больше чем на медиану+1.5 межквартильных размаха (на картинке из следующего поста показано)
Но можно ли просто выкинуть значения, которые не нравятся, для соответствия требованиям о нормальности распределения, а то и вовсе для получения заветного p < 0.05 при сравнении групп?
Ответ: НЕТ, но в некоторых случаях можно, в зависимости от природы этого выброса.
К ситуации, когда удалить выброс можно, относятся например, опечатки, которые приводят к физически невозможным значениям, к примеру уровень глюкозы в крови 55, здесь явно пропущен десятичный разделитель, так как человек с таким уровнем сахара уже скорее всего мертв. Если ошибку исправить возможно, то стоит исправить, если же неясно, какое должно быть значение в оригинале, то лучше исключить это наблюдение из анализа.
Может быть ситуация, когда наблюдаемое измерение не соответствует исследуемой гипотезе, например, обнаружилось, что часть мышей в контрольной группе оказались стрессированы каким-то фактором и, следовательно, не могут являться корректным контролем. В таком случае допускается исключить эти образцы, однако быть готовым к обоснованию почему это сделано. Обратите внимание, что это должно происходить еще на этапе построения описательных статистик, то есть до проведения сравнения групп и желания подогнать пи вэлью, чтобы найти различия.
В большинстве остальных случаев выбросы могут отражать реальную биологическую вариабельность наших данных и их исключение приведет к занижению дисперсий и нарушению корректности статистического анализа. В ситуации, если вы уверены, что различия между выборками должны быть, но выбросы не позволяют их найти, рекомендуется увеличить объем выборки, если различия действительно есть, то на большей выборке их, вероятно, удастся найти.
Также рекомендую использовать соответствующие распределениям статистические критерии, например в случае верности гипотезы о нормальности распределения и гомогенности дисперсий можно использовать Т-критерий Стьюдента. В случае нарушения этих предположений (какого-то из) рекомендуется использовать непараметрические критерии, такие как тест Манна-Уитни.
Про проверку на нормальность и гомогенность дисперсий (гомоскедастичность) будет отдельный пост. Также планирую добавить гайд по выбору критериев.
Не секрет, что во время анализа данных часто наблюдаются аномальные значения, выбросы (аутлайеры, outliers), значительно отличающиеся от всех остальных значений в выборке. Выбросы нарушают нормальность распределения и уменьшают мощность параметрических критериев.
Выбросы - это значения, отличающиеся больше чем на медиану+1.5 межквартильных размаха (на картинке из следующего поста показано)
Но можно ли просто выкинуть значения, которые не нравятся, для соответствия требованиям о нормальности распределения, а то и вовсе для получения заветного p < 0.05 при сравнении групп?
Ответ: НЕТ, но в некоторых случаях можно, в зависимости от природы этого выброса.
К ситуации, когда удалить выброс можно, относятся например, опечатки, которые приводят к физически невозможным значениям, к примеру уровень глюкозы в крови 55, здесь явно пропущен десятичный разделитель, так как человек с таким уровнем сахара уже скорее всего мертв. Если ошибку исправить возможно, то стоит исправить, если же неясно, какое должно быть значение в оригинале, то лучше исключить это наблюдение из анализа.
Может быть ситуация, когда наблюдаемое измерение не соответствует исследуемой гипотезе, например, обнаружилось, что часть мышей в контрольной группе оказались стрессированы каким-то фактором и, следовательно, не могут являться корректным контролем. В таком случае допускается исключить эти образцы, однако быть готовым к обоснованию почему это сделано. Обратите внимание, что это должно происходить еще на этапе построения описательных статистик, то есть до проведения сравнения групп и желания подогнать пи вэлью, чтобы найти различия.
В большинстве остальных случаев выбросы могут отражать реальную биологическую вариабельность наших данных и их исключение приведет к занижению дисперсий и нарушению корректности статистического анализа. В ситуации, если вы уверены, что различия между выборками должны быть, но выбросы не позволяют их найти, рекомендуется увеличить объем выборки, если различия действительно есть, то на большей выборке их, вероятно, удастся найти.
Также рекомендую использовать соответствующие распределениям статистические критерии, например в случае верности гипотезы о нормальности распределения и гомогенности дисперсий можно использовать Т-критерий Стьюдента. В случае нарушения этих предположений (какого-то из) рекомендуется использовать непараметрические критерии, такие как тест Манна-Уитни.
Про проверку на нормальность и гомогенность дисперсий (гомоскедастичность) будет отдельный пост. Также планирую добавить гайд по выбору критериев.
тестовое сообщение - работает ли возможность комментировать посты
P.S. на тему предыдущего поста можно комментировать также здесь, чтобы не создавать отдельные сообщения
P.S. на тему предыдущего поста можно комментировать также здесь, чтобы не создавать отдельные сообщения
Методы ресемплинга как альтернатива методам классической статистики.
Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.
Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.
Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).
Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.
Продолжение в следующем посте =>
Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?".
Однако после изучения материалов на эту тему пришла к выводу, что простые методы, основанные на априорных знаниях о распределении останутся актуальными, пока выполняются предположения, лежащие в основе критериев: нормальность распределения, гомогенность дисперсий и тп. Так что конкретно t-test методы ресемплинга не заменят, однако что насчет более сложных данных? Давайте разбираться.
Небольшой экскурс в историю развития статистической мысли.
Большинство "классических" методов статистики разработаны в 60-80х годах прошлого века или даже еще раньше. Тест Стьюдента, например, был разработан вообще в начале 20 века, а теорема Байеса была опубликована в 1761 году.
Для того времени была характерна полная или сравнительная недоступность к вычислительным ресурсам, следовательно, исследователи старались сделать достоверные выводы о различиях в выборках на основе относительно просто расчитываемых критериев. Так были разработаны критерии Фишера, Пирсона, Спирмена и ряд других.
Для того чтобы с помощью относительно небольшого числа вычислений получить достоверные результаты, были сформулированы определенные требования к исходным выборкам: например уже упомянутое нормальное распределение и равенство дисперсий. Следовательно, параллельно были разработаны методы, позволяющие оценить соответствие наборов данных желаемому распределению. Сюда относятся критерии проверки на нормальность распределения, например тест Шапиро-Уилка (1965), проверка на гомогенность дисперсий тестом Левена (1960).
Тесты Стьюдента, Пирсона и другие называются параметрическими критериями, поскольку опираются на некие параметры, позволяющие аппроксимировать данные известными теоретическими распределениями: нормальным, лог-нормальным, биномиальным и тп.
Все эти параметрические критерии работают прекрасно, пока выполняются лежащие в основе допущения, однако что делать в случае когда они нарушаются? На помощь могут прийти ранговые критерии, например всем известный критерий Манна-Уитни-Вилкоксона (1945, 1947). Однако по сравнению с параметрическими аналогами ранговые критерии обычно имеют меньшую мощность (то есть вероятность найти значимые отличия там где они действительно есть).
Но это не единственная проблема ранговых критериев. В статье Johnston and Faulkner, 2020 было показано, что критерий Манна-Уитни-Вилкоксона в ситуации сравнения двух выборок с равными медианами и дисперсиями, но разными формами распределения показывал нахождение различий, там где их нет, вплоть до 17% случаев. Это довольно значительная доля ошибки первого рода, то есть нахождения ложнопозитивных результатов (false positive rate). Для меня это оказалось неожиданным, поскольку нас всегда учили, что ранговые критерии почти ни от чего не зависят и работают стабильно. Оказалось что и для рангового критерия форма распределения оказалась важной для корректной работы.
В копилку недостатков критерия Манн-Уитни-Вилкоксона добавлю, что метод не любит повторяющиеся значения, поскольку расставляет числа в ряд по возрастанию и присваивает им ранги на основании этой позиции, соответственно, для одинаковых чисел будут либо разные ранги, что неверно, либо они будут какие-то дробные, что понижает точность анализа. В то время как во многих случах в биологии величины дискретны: например, количество клеток или слоев клеток в корнях неизбежно приведет к большому количеству одинаковых чисел.
Более того, в общем случае непараметрические критерии требуют наличия повторностей для корректной работы. Однако в некоторых дисциплинах, например в экономике и экологии принципиально невозможно повторить эксперимент в том же самом месте и в то же самое время, при этом данные не обязаны соответствовать нормальному или какому-либо еще теоретическому распределению.
Продолжение в следующем посте =>
Кроме того, для данных с более сложной структурой, например для дисперсионного анализа с различными модификациями, существует порядка 30 именных критериев, различия между которыми не сразу очевидны для исследователя. Все эти методы, разработанные умными людьми в середине прошлого века, рассчитаны на минимальное число расчётов, поскольку еще не было компьютеров в общедоступности.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
Что же делать со сложными данных, для которых не выполняются допущения, лежащие в основе параметрической статистики? На помощь приходят методы ресемплинга. Сюда относятся перестановочный тест (рандомизация, permutation), бутстреп (bootstrap), jacknife, кросс-валидация и некоторые другие. . Любопытно, что эти методы также были разработаны в середине 20 века (например, Efron, 1979), однако они ждали своего часа с развитием компьютерных технологий. Разберем подробнее, как работают и в каких случаях актуальны методы ресемплинга.
1) Основным преимуществом, как мне кажется, является отсутствие необходимости обладать априорными знаниями о соответствии нашей генеральной совокупности какому-то теоретическому распределению. Мы можем вычислить распределение генеральной совокупности на основе наших данных, без необходимости аппроксимировать данные теоретическими распределениями и переживать о соответствии им (нашим данных теоретическому распределению). Этот принцип здорово отражен в названии одного из методов - bootstrap, что буквально означает пряжку ботинка, и принцип метода - грубо говоря вытянуть самого себя из болота за ботинок как в небезысвестной истории о бароне Мюнхгаузене (правда там кажется было за волосы).
2) Данный метод имеет ограничение на размер выборки. При выборке меньше 10 образцов доля ложноположительных результатов возрастает и превышает допустимое значение 0.05 (Johnston and Faulkner, 2020), поэтому на малых выборках ресемплинг методы не имеют смысла.
3) Принцип действия постаралась изложить в картинках без формул (похоже их удастся прикрепить только к следующему посту). В целом, ресемплинг методы выступают как альтернатива классической статистике в любых ее проявлениях - от простого сравнения двух выборок (то есть условно говоря, замена тесту Стьюдента и Манн-Уитни-Вилкоксону) до многофакторной ановы, линейной регрессии, методам понижения размерности, анализу временных рядов, и это я нашла только при поверхностном чтении книги (Шитиков и Розенберг, 2013). Вообще похоже что для всех возможных методов и подходов классической статистике есть аналог в пространстве перестановочных (ресемплинг) методов.
Вопрос - когда отправляем всеми любимую (особенно мной) классическую статистику на свалку истории, раз появился такой замечательный аналог?
Ответ - ни на какую свалку не отправляем, поскольку для большинства боевых задач стандартные методы не утратили своей актуальности и рекомендованы к применению.
Могу посоветовать обратить внимание на новый подход, в случае, если ваши данные плохо соответствуют теоретическому распределению, невозможно сделать повторности, наблюдается неравная форма распределений у выборок и в целом попадают в "серые зоны" классических методов.
По своему опыту скажу, что при оценке количества слоев клеток у корней, с которыми я работаю, действительно лучше сработал метод бутстрепинга, с помощью него не было обнаружено различий в выборках, в то время как и Манн-Уитни и тест Стьюдента их находили. Но у нас есть серьезные основания доверять скорее бутстрепу, поскольку похоже что мы столкнулись с неравной формой распределения, в случае которых Манн-Уитни начинает давать ложноположительные результаты, что по-видимому и произошло в моем случае.
А что вы думаете о способе считать описательные статистики с помощью ресемплинга? Если есть интерес к этой теме, в следующий раз попробую разобрать более прицельно эти методы и применение в реальных боевых задачах.
Пишите комментарии, понравился ли материал, что осталось непонятным, что стоит раскрыть более подробно.
Список источников:
Johnston, M. G., & Faulkner, C. (2021). A bootstrap approach is a superior statistical method for the comparison of non-normal data with differing variances. The New phytologist, 230(1), 23–26. https://doi.org/10.1111/nph.17159
Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. - Тольятти: Кассандра, 2013. - 314 с.
Johnston, M. G., & Faulkner, C. (2021). A bootstrap approach is a superior statistical method for the comparison of non-normal data with differing variances. The New phytologist, 230(1), 23–26. https://doi.org/10.1111/nph.17159
Шитиков В.К., Розенберг Г.С. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. - Тольятти: Кассандра, 2013. - 314 с.
Статистика и R в науке и аналитике pinned «Методы ресемплинга как альтернатива методам классической статистики. Изначально я хотела назвать материал примерно так: "Смерть классической статистики? Правда ли что бутстреп заменит t-test?". Однако после изучения материалов на эту тему пришла к выводу…»
Продолжение серии постов про бутстреп.
Сегодня разберем более подробно, как именно применяется бутстреп для сравнения двух выборок между собой.
https://telegra.ph/Primenenie-butstrepa-dlya-sravneniya-vyborok-12-10
Важное напоминание - бутстреп не является спасением от маленьких выборок и более чувствителен к репрезентативности исходного набора данных, чем тот же тест Манна-Уитни, и на это нужно обращать внимание при работе с данным методом.
#bootstrap #stat_hard
Решила ввести небольшую систему хештегов, с распределением по теме и сложности материала
Сегодня разберем более подробно, как именно применяется бутстреп для сравнения двух выборок между собой.
https://telegra.ph/Primenenie-butstrepa-dlya-sravneniya-vyborok-12-10
Важное напоминание - бутстреп не является спасением от маленьких выборок и более чувствителен к репрезентативности исходного набора данных, чем тот же тест Манна-Уитни, и на это нужно обращать внимание при работе с данным методом.
#bootstrap #stat_hard
Решила ввести небольшую систему хештегов, с распределением по теме и сложности материала
Небольшое дополнение к материалам про бутстреп, на этот раз понятное интерактивное объяснение принципа действия (в первом видео), а во втором применение бутстрепа для оценки p-value при тестировании гипотез. В данном случае гипотеза о том, действует ли препарат на группу испытуемых.
Этот принцип расширяется на сравнение групп, описанный в предыдущем посте, так же здесь более подробно объясняется идея центрирования данных. Посмотрите, думаю, будет интересно.
https://www.youtube.com/watch?v=Xz0x-8-cgaQ
https://www.youtube.com/watch?v=N4ZQQqyIf6k
В целом рекомендую этот канал, очень качественные материалы о статистике, машин лернинге и даже биоинформатике, например, здесь очень неплохо разобран материал про RNA-seq: дифференциальная экспрессия (DESeq2, edgeR), методы нормировки (FPKM, TPM) и некоторые другие аспекты.
#bootstrap #stat_hard #recommendation
Этот принцип расширяется на сравнение групп, описанный в предыдущем посте, так же здесь более подробно объясняется идея центрирования данных. Посмотрите, думаю, будет интересно.
https://www.youtube.com/watch?v=Xz0x-8-cgaQ
https://www.youtube.com/watch?v=N4ZQQqyIf6k
В целом рекомендую этот канал, очень качественные материалы о статистике, машин лернинге и даже биоинформатике, например, здесь очень неплохо разобран материал про RNA-seq: дифференциальная экспрессия (DESeq2, edgeR), методы нормировки (FPKM, TPM) и некоторые другие аспекты.
#bootstrap #stat_hard #recommendation
YouTube
Bootstrapping Main Ideas!!!
Bootstrapping is one of the simplest, yet most powerful methods in all of statistics. It provides us an easy way to get a sense of what might happen if we could repeat an experiment a bunch of times. It turns point estimates into distributions that can be…
На прошлой неделе ушел из жизни Дэвид Кокс (Cox), великий британский статистик, в возрасте 97 лет.
https://en.memesrandom.com/david-cox/
Мне кажется, что он известен широкой общественности чуть меньше, чем того заслуживал, поскольку именно он сформулировал логистическую регрессию, proportional hazards model (думаю, можно перевести как модель отношения рисков), а также Cox process, являющийся общим случаем распределения Пуассона.
Кроме того, он является одним из соавторов Бокс-Кокс (Box-Cox) трансформации, уже упомянутой на этом канале в одном из первых постов.
Признаюсь, я сама узнала буквально только что, что теория логистической регрессии была изобретена именно им. Возможно, сделаю парочку постов с объяснением сути логистической регрессии и чем она замечательна (кстати, логистическая регрессия это не регрессия, а метод классификации).
https://en.memesrandom.com/david-cox/
Мне кажется, что он известен широкой общественности чуть меньше, чем того заслуживал, поскольку именно он сформулировал логистическую регрессию, proportional hazards model (думаю, можно перевести как модель отношения рисков), а также Cox process, являющийся общим случаем распределения Пуассона.
Кроме того, он является одним из соавторов Бокс-Кокс (Box-Cox) трансформации, уже упомянутой на этом канале в одном из первых постов.
Признаюсь, я сама узнала буквально только что, что теория логистической регрессии была изобретена именно им. Возможно, сделаю парочку постов с объяснением сути логистической регрессии и чем она замечательна (кстати, логистическая регрессия это не регрессия, а метод классификации).
MRandom News
Home Today - MRandom News
Подборка материалов по освоению языка программирования R
Книги:
1. R in a Nutshell
неплохая книга для того чтобы начать знакомство с R, разбираются базовые концепции языка, необходимые для работы с ним (основные типы объектов, функции, ввод и вывод данных). Далее есть довольно значительный разбор применения R именно для анализа данных. Книгу рекомендую для в первую очередь пользователей R (а не разработчиков).
UPD: похоже, что книга немного устарела
2. R in action
Кроме того, есть перевод книги на русский язык, у меня кстати есть бумажная версия, я ее почти дочитала, мне очень понравился подробный разбор статистических моделей и методов. С одной стороны он был недостаточно подробен, чтобы перейти на сухой язык формул, но достаточно доходчив, хотя и рассчитан, пожалуй, для не новичков в статистике. Примеры применения например перестановочных и бутстреп тестов в R тоже порадовали.
Бумажную версию можно купить здесь:
https://dmkpress.com/catalog/computer/statistics/978-5-94074-912-7/
3. R for Data Science
Соавтор этой книги Хадли Викхам (Hadley Wickham), разработчик среды/экосистемы
4. Advanced R
Книга предназначена больше для программистов, для тех кто собирается погрузиться в разработку языка, здесь объясняется почему при выполнении определенных действий происходит так, а не иначе. Подробно разбирается ООП-парадигма программирования в языке R: основные классы, S3, S4, R6. Планирую разобраться с классами в R и с принципом метапрограммирования.
5. Введение в язык программирования R
https://textbook.rintro.ru/index.html
Одна из немногих книг на русском языке про R, на мой взгляд, подойдет для знакомства с языком и для дальнейшего продвижения, поскольку в ней затрагиваются довольно продвинутые вещи. Более детально смогу оценить, когда прочитаю сама)
6. Книга Ивана Позднякова "Анализ данных и статистика в R". Очень крутая, всем рекомендую! https://pozdniakov.github.io/tidy_stats/index.html
Курсы:
На степике
Очень люблю эту платформу, поэтому советовать буду на основании личного опыта прохождения курсов.
https://stepik.org/course/129 Анализ данных в R
https://stepik.org/course/724 Анализ данных в R. Часть 2.
Оба курса от Анатолия Карпова, замечательные курсы с бОльшим акцентом на анализ данных
https://stepik.org/course/497 Основы программирования на R
Не менее хороший курс, а может и более, поскольку здесь разбираются темы, более актуальные для разработки. Это неудивительно, потому что автор курса опирался в том числе на вышеупомянутую книгу Advanced R.
Кроме того, существуют курсы на курсере, но про их качество я точно сказать не смогу.
Пишите комментарии, какие курсы проходили и какие книги читали, а также советуйте свои источники, будем пополнять информацию!
#literature #R #recommendation
Книги:
1. R in a Nutshell
неплохая книга для того чтобы начать знакомство с R, разбираются базовые концепции языка, необходимые для работы с ним (основные типы объектов, функции, ввод и вывод данных). Далее есть довольно значительный разбор применения R именно для анализа данных. Книгу рекомендую для в первую очередь пользователей R (а не разработчиков).
UPD: похоже, что книга немного устарела
2. R in action
Кроме того, есть перевод книги на русский язык, у меня кстати есть бумажная версия, я ее почти дочитала, мне очень понравился подробный разбор статистических моделей и методов. С одной стороны он был недостаточно подробен, чтобы перейти на сухой язык формул, но достаточно доходчив, хотя и рассчитан, пожалуй, для не новичков в статистике. Примеры применения например перестановочных и бутстреп тестов в R тоже порадовали.
Бумажную версию можно купить здесь:
https://dmkpress.com/catalog/computer/statistics/978-5-94074-912-7/
3. R for Data Science
Соавтор этой книги Хадли Викхам (Hadley Wickham), разработчик среды/экосистемы
tidyverse
, разработчик IDE R Studio и вообще один из центральных игроков в развитии R как языка программирования. Книга эта, как следует из названия, подходит для т.н. датасаенса, то есть для всяческой работы с данными: анализ, визуализация, проверка статистических гипотез. У меня книга пока в списке для чтения.4. Advanced R
Книга предназначена больше для программистов, для тех кто собирается погрузиться в разработку языка, здесь объясняется почему при выполнении определенных действий происходит так, а не иначе. Подробно разбирается ООП-парадигма программирования в языке R: основные классы, S3, S4, R6. Планирую разобраться с классами в R и с принципом метапрограммирования.
5. Введение в язык программирования R
https://textbook.rintro.ru/index.html
Одна из немногих книг на русском языке про R, на мой взгляд, подойдет для знакомства с языком и для дальнейшего продвижения, поскольку в ней затрагиваются довольно продвинутые вещи. Более детально смогу оценить, когда прочитаю сама)
6. Книга Ивана Позднякова "Анализ данных и статистика в R". Очень крутая, всем рекомендую! https://pozdniakov.github.io/tidy_stats/index.html
Курсы:
На степике
Очень люблю эту платформу, поэтому советовать буду на основании личного опыта прохождения курсов.
https://stepik.org/course/129 Анализ данных в R
https://stepik.org/course/724 Анализ данных в R. Часть 2.
Оба курса от Анатолия Карпова, замечательные курсы с бОльшим акцентом на анализ данных
https://stepik.org/course/497 Основы программирования на R
Не менее хороший курс, а может и более, поскольку здесь разбираются темы, более актуальные для разработки. Это неудивительно, потому что автор курса опирался в том числе на вышеупомянутую книгу Advanced R.
Кроме того, существуют курсы на курсере, но про их качество я точно сказать не смогу.
Пишите комментарии, какие курсы проходили и какие книги читали, а также советуйте свои источники, будем пополнять информацию!
#literature #R #recommendation
Всем привет! Давненько тут не было постов, исправляюсь. На этот раз предлагаю подборку обучающих материалов по статистике с моими очень ценными комментариями и мнениями о них)
Книги:
1. Статистика и котики. Информация например здесь
Книгу все советуют для новичков в статистике, признаться, я сама ее прочитала уже спустя некоторое время работы со статистикой, поэтому мне было особенно легко ее воспринимать. Книга действительно очень забавная, написана приятным языком, мне понравилось. Однако могу отметить, что более сложные темы стат анализа, например про факторный анализ написано скорее запутанно, чем понятно, поэтому я бы тоже рекомендовала книгу именно новичкам в статистике.
2. Голая статистика. Информация здесь
Эту книгу тоже советуют новичкам, ее я не читала, но судя по отзывам, там довольно простой стиль изложения, многим нравится.
3. Медико-биологическая статистика Гланца. Скачать здесь http://medstatistic.ru/articles/glantz.pdf
Относительно неплохая книга, раньше тоже советовали начинающим статистикам-биологам и медикам, особенно когда не было вышеприведенных книг. Здесь чуть более строгий язык повествования, но все еще не перегруженный формулами и терминами. Существенный минус - книжка старая, здесь нет описания поправок на множественное тестирование FDR.
4. Теория вероятностей и математическая статистика, Гмурман В.Е. http://lib.maupfib.kg/wp-content/uploads/2015/12/Teoria_veroatnosty_mat_stat.pdf
Книга уже чуть более сложная, помимо базовых вещей, здесь разобрано про Монте-Карло пермутационные тесты и немного про скрытые марковские модели.
5. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. В.К. Шитиков, Г.С. Розенберг
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Starb.pdf
Это уже немного в сторону от базовых вещей в статистике, здесь действительно целая книга, посвященная применению бутстрепа для анализа данных. Не могу похвастаться что осилила ее, но мне очень понравилось введение про сам принцип, во многом опиралась на него, пока писала про бутстреп на канале. Очень рекомендую почитать тем, кто интересуются бутстрепом.
6. Statistics in a Nutshell, Sarah Boslaugh. Издательство O'Reilly.
Нашла ссылку только на первое издание https://theswissbay.ch/pdf/Gentoomen%20Library/Maths/Statistics/OReilly.Statistics.in.a.Nutshell.A.Desktop.Quick.Reference.Aug.2008.pdf
Есть перевод на русский, говорят неплохой, но находили неточности в переводе. Мне кажется именно эта книга должна быть мастхев для интересующихся и работающих со статистикой людей, потому что здесь есть баланс между простым языком изложения и в то же время не поверхностным.
Единственное, что вызвало у меня недоумение, это отсутствие главы про поправки на множественное тестирование вообще, хотя книга относительно новая. Зато здесь есть много других очень важных вещей, например принципы планирования исследования, анализ мощности стат тестов, работа с пропущенными значениями и тп. Сама планирую приобрести бумажную версию книги.
Курсы:
Здесь все просто, советую три курса по статистике на степике от Анатолия Карпова
https://stepik.org/course/76/syllabus
https://stepik.org/course/524/syllabus
https://stepik.org/course/2152/syllabus
курсы замечательные, именно с первой части курса я перестала бояться и начала осваивать статистику. Думаю, все и так про них наслышаны, я присоединяюсь к позитивным отзывам и рекомендациям.
Есть еще вот такой курс, Математическая статистика
https://stepik.org/course/326/syllabus
Это курс для продвинутых, я его пока не прошла, но когда-нибудь соберусь.
Пишите комментарии, что читали и проходили, понравилось или нет, а также добавляйте свои материалы!
#literature #base_stat #recommendation #stat_hard
Книги:
1. Статистика и котики. Информация например здесь
Книгу все советуют для новичков в статистике, признаться, я сама ее прочитала уже спустя некоторое время работы со статистикой, поэтому мне было особенно легко ее воспринимать. Книга действительно очень забавная, написана приятным языком, мне понравилось. Однако могу отметить, что более сложные темы стат анализа, например про факторный анализ написано скорее запутанно, чем понятно, поэтому я бы тоже рекомендовала книгу именно новичкам в статистике.
2. Голая статистика. Информация здесь
Эту книгу тоже советуют новичкам, ее я не читала, но судя по отзывам, там довольно простой стиль изложения, многим нравится.
3. Медико-биологическая статистика Гланца. Скачать здесь http://medstatistic.ru/articles/glantz.pdf
Относительно неплохая книга, раньше тоже советовали начинающим статистикам-биологам и медикам, особенно когда не было вышеприведенных книг. Здесь чуть более строгий язык повествования, но все еще не перегруженный формулами и терминами. Существенный минус - книжка старая, здесь нет описания поправок на множественное тестирование FDR.
4. Теория вероятностей и математическая статистика, Гмурман В.Е. http://lib.maupfib.kg/wp-content/uploads/2015/12/Teoria_veroatnosty_mat_stat.pdf
Книга уже чуть более сложная, помимо базовых вещей, здесь разобрано про Монте-Карло пермутационные тесты и немного про скрытые марковские модели.
5. Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. В.К. Шитиков, Г.С. Розенберг
http://www.ievbras.ru/ecostat/Kiril/Article/A32/Starb.pdf
Это уже немного в сторону от базовых вещей в статистике, здесь действительно целая книга, посвященная применению бутстрепа для анализа данных. Не могу похвастаться что осилила ее, но мне очень понравилось введение про сам принцип, во многом опиралась на него, пока писала про бутстреп на канале. Очень рекомендую почитать тем, кто интересуются бутстрепом.
6. Statistics in a Nutshell, Sarah Boslaugh. Издательство O'Reilly.
Нашла ссылку только на первое издание https://theswissbay.ch/pdf/Gentoomen%20Library/Maths/Statistics/OReilly.Statistics.in.a.Nutshell.A.Desktop.Quick.Reference.Aug.2008.pdf
Есть перевод на русский, говорят неплохой, но находили неточности в переводе. Мне кажется именно эта книга должна быть мастхев для интересующихся и работающих со статистикой людей, потому что здесь есть баланс между простым языком изложения и в то же время не поверхностным.
Единственное, что вызвало у меня недоумение, это отсутствие главы про поправки на множественное тестирование вообще, хотя книга относительно новая. Зато здесь есть много других очень важных вещей, например принципы планирования исследования, анализ мощности стат тестов, работа с пропущенными значениями и тп. Сама планирую приобрести бумажную версию книги.
Курсы:
Здесь все просто, советую три курса по статистике на степике от Анатолия Карпова
https://stepik.org/course/76/syllabus
https://stepik.org/course/524/syllabus
https://stepik.org/course/2152/syllabus
курсы замечательные, именно с первой части курса я перестала бояться и начала осваивать статистику. Думаю, все и так про них наслышаны, я присоединяюсь к позитивным отзывам и рекомендациям.
Есть еще вот такой курс, Математическая статистика
https://stepik.org/course/326/syllabus
Это курс для продвинутых, я его пока не прошла, но когда-нибудь соберусь.
Пишите комментарии, что читали и проходили, понравилось или нет, а также добавляйте свои материалы!
#literature #base_stat #recommendation #stat_hard
Небольшой апдейт к предыдущему посту. В одном биоинформатическом чате в пух и прах раскритиковали курсы Карпова за неточности в описании центральной предельной теоремы (ЦПТ) и о требованиях к данным для применения корреляции Пирсона. Почитать можно здесь: несколько грубовато, но ошибки разобраны. Ошибки в курсе уже исправлены, спасибо воинам статистики за то что стоят на страже истины!
В ходе дискуссии я вспомнила про статквест, который уже ранее упоминала на канале:
https://www.youtube.com/c/joshstarmer/videos
Очень хорошо разобран материал про статистику, машинное обучение, статистические модели в рнк-секах и не только.
Курс от курсеры очень рекомендовал вышеупомянутый воин статистики
https://www.coursera.org/specializations/statistics
Как ни странно, с моего аккаунта курсеры, привязанного к университету (НГУ), мне удалось получить доступ к материалам курса. Однако при попытке зарегистрировать новый аккаунт, мне сообщили что не предоставляют услуги для юзеров в санкционных странах. Так что да, курсеру уже так просто не пройти, к сожалению. Посмотрела программу, вроде бы да, очень достойно выглядит. Еще понравилось, что там есть предустановленная среда R со всеми нужными пакетами, можно кодить прямо в браузере без необходимости установки R себе (вдруг у кого есть сложности с этим).
Кроме того, небольшое дополнение к посту про R:
https://textbook.rintro.ru/ учебник по языку R на русском (!), мне кажется очень годный. Понравилась глава про историю языка, пока прочитала только ее, довольно любопытно осознавать контекст, в котором развивался язык. Первые три четверти книги вроде бы для начинающих пользователей, а дальше уже про ООП, работу с памятью, производительностью кода - то есть материал скорее для программистов.
И еще вот подборка материалов из чата по R
https://www.group-telegram.com/hotlineR_EU/7692
#literature #R #recommendation
В ходе дискуссии я вспомнила про статквест, который уже ранее упоминала на канале:
https://www.youtube.com/c/joshstarmer/videos
Очень хорошо разобран материал про статистику, машинное обучение, статистические модели в рнк-секах и не только.
Курс от курсеры очень рекомендовал вышеупомянутый воин статистики
https://www.coursera.org/specializations/statistics
Как ни странно, с моего аккаунта курсеры, привязанного к университету (НГУ), мне удалось получить доступ к материалам курса. Однако при попытке зарегистрировать новый аккаунт, мне сообщили что не предоставляют услуги для юзеров в санкционных странах. Так что да, курсеру уже так просто не пройти, к сожалению. Посмотрела программу, вроде бы да, очень достойно выглядит. Еще понравилось, что там есть предустановленная среда R со всеми нужными пакетами, можно кодить прямо в браузере без необходимости установки R себе (вдруг у кого есть сложности с этим).
Кроме того, небольшое дополнение к посту про R:
https://textbook.rintro.ru/ учебник по языку R на русском (!), мне кажется очень годный. Понравилась глава про историю языка, пока прочитала только ее, довольно любопытно осознавать контекст, в котором развивался язык. Первые три четверти книги вроде бы для начинающих пользователей, а дальше уже про ООП, работу с памятью, производительностью кода - то есть материал скорее для программистов.
И еще вот подборка материалов из чата по R
https://www.group-telegram.com/hotlineR_EU/7692
#literature #R #recommendation