#статистика_для_котиков
Мы выбираем, нас выбирают,
как это часто нерелевантноПривет, коллега!
В
прошлом посте мы говорили про типы данных, но данные не существуют в вакууме, мы собираем их с субъектов исследования. Это могут быть люди, крысы, клетки, химические вещества - всё, с чем ты ставишь свой эксперимент.
🌈 В идеальном мире, чтобы делать обоснованные выводы, мы должны провести исследование для вообще всех существующих в мире субъектов. Это называется
генеральной совокупностью. Если мы оцениваем пушистость котиков, то придётся измерить её для всех котиков на планете. Это занятие, конечно, приятное, но займет кучу времени. Поэтому мы возьмем только котиков сотрудников нашего института и это будет называться
выборкой.
✅ Выборка может быть
репрезентативной, то есть хорошо отражать генеральную совокупность. Мы знаем что в мире есть и персидские, и сибирские кошки, и сфинксы, и ликои – и пушистость у всех разная. В репрезентативную выборку должны попасть представители всех пород и в том соотношении, в котором они есть в генеральной совокупности. Это, конечно, почти недостижимо, но стремиться к этому надо.
✖️Нерепрезентативная выборка не включает все элементы генеральной совокупности или включает их в неправильном соотношении. Например, измерять пушистость котиков мы пошли в приют, а там все животные оказались благородной дворовой породы
📌 Очень важно, что выводы, которые мы делаем из работы справедливы только для генеральной совокупности для которой наша выборка репрезентативна. Например, эффективность некого лекарства проверяется на самцах белых крыс линии Wistar возрастом 4-6 месяцев и весом 300-400 грамм. Будет ли оно работать для вообще всех крыс? А для молодых самцов? А для крыс с ожирением? Не факт. Собственно, из-за того что в 20 веке все лекарства тестировались на мужчинах, многие из них имеют иную дозировку или попросту неэффективны для женщин
👊 Все же замечали как пиарщики разных организаций любят громкие заголовки про то, что учёные из НИИЧАВО вылечили рак, хотя на самом деле они нашли молекулу, которая убивает раковые клетки в культуре. Это собственно перенос результатов с одной выборки на вообще другую генеральную совокупность. Если меня кто-то слышит - не делайте так, пожалуйста. Это порождает мемы как про британских учёных, но точно не приносит славы вашим. Особенно в глазах других учёных.
⏩Если у нас исследование с разными экспериментальными группами, то мы получим несколько выборок. Друг относительно друга они могут быть
связанными (зависимыми) и
не связанными (независимыми). Выборки независимы, если субъекты в них разные. Например, мы взяли часть котиков на груминг, а других не взяли
😢 и потом сравнили их пушистость. В связанных выборках субъекты одни и те же. Мы взяли котиков и измерили их пушистость до груминга и после. Собственно в зависимости от того, связаны выборки или нет, будет зависеть
выбор критерия для сравнения пушистости. В комментариях я приведу пример из своей работы, где видно, что анализ связанных выборок позволил выявить эффект, который мы бы никогда не поймали, если бы некорректно использовали другой критерий.
Кстати именно для этой работы я долго боролась с журналистами, чтобы они прописали в
новости про эксперименты на животных и не писали, что учёные из Сеченовского вылечили диспропорцию конечностей. Получилось не слишком эффективно, до сих пор на рабочую почту мне приходят вопросы про то, где можно сделать инъекцию роста
🥱