Telegram Group Search
Админа к публикациям побуждают три вещи:

* ярмарка тщеславия, ака опубликованные статьи;
* объяснения, почему в интернете кто-то неправ;
* очередной экзамен, в процессе подготовки и сдачи которого снизошли откровения.

Экзамен я сдал, пришла пора писать об откровениях.

Для разогрева положу сюда коротенькую лекцию Виктора Вахштайна, которая имеет прямое отношение к биостату. При этом, увы, про эти вещи в биостате обычно не говорят / говорят иначе и не так явно.
Озарения про регрессию

В статистике обычную линейную регрессию методом наименьших квадратов (ordinary least squares regression) можно рассматривать в трех разных сеттингах. В двух из них делаются допущения о распределении регрессоров, о чем почему-то обычно не говорят. Давайте пройдемся по каждому из сеттингов и посмотрим, на что там стоит обратить внимание.

Пусть Y вектор респонсов, X -- матрица случайных (это важно!) регрессоров. В каждом случае мы предполагаем, что модель специфицирована правильно, количество наблюдений n больше количества параметров p и модель полного ранга. Формула для оценки параметров приведена на картинке; заметим, что оценки у нас линейны в Y.
I. Регрессия для нормального респонса

Итак, пусть условное распределение Y при данном X нормально и наши наблюдения условно при данном X независимы -- первая строка на картинке. Тогда условное распределение оценок коэффициентов тоже нормальное, оценки несмещенные и состоятельные.

Что важно:
1. Мы не налагаем вообще никаких ограничений на распределение регрессоров. В том числе, мы не требуем, чтобы (Yi, Xi) были iid, мы ограничились только условной независимостью.
2. Зато условное распределение респонса должно быть нормальным и никак иначе. Наверное, мы можем сказать что это условно параметрическая модель. Условно -- потому что мы обусловливаем иксами. Параметрическая -- потому что мы предполагаем, что (условное) распределение игреков принадлежит параметрическому семейству и полностью описывается (условным) матожиданием и (условной же) остаточной дисперсией.
3. Тесты в такой модели точные (в противовес асимптотическим) -- т.е. работают и на малых выборках.
4. Статвывод проводится условно при данных регрессорах. Посчитать маргинальную дисперсию оценок не получится -- для этого нужно выинтегрировать иксы, а мы не знаем их распределения.
5. Благодаря тому, что мы обуславливаем иксами, они могут быть как случайными, так и заранее заданными / константными (designed industrial experiments, вам привет).

Четвертый пункт мозголомный, как его интерпретировать философски я пока не очень понимаю. Если вдруг кто-то в курсе -- пишите в комментариях.

Еще раз заметим, что мы здесь работаем условно (conditionally) при данных регрессорах. В этой модели OLS оценка -- это оценка методом условного максимального правдоподобия. Для метода максимального правдоподобия мы не задаем совместное распределение Y и X, мы определяем условное распределение игреков при данных иксах.

Сравните также, например, с тестом Фишера, непараметрическим бутстрепом, перестановочными тестами, регрессией Кокса или условной логистической регрессией. Техника обуславливания данными (всеми или частью) -- продуктивная штука.
II. Гомоскедастическая регрессия

Пусть (Y_i, X_i) iid. Специфицируем условное матожидание и дисперсию игреков при данных иксах. Заметим, что мы не предполагаем нормальность игреков — ни условную, ни маргинальную. Получается полупараметрическая модель. Полупараметрическая — потому что мы предполагаем, что два момента специфицированы правильно, но не опираемся на нормальность или какое-то другое параметрическое семейство (как в случае нормальной или пуассонской регрессии).

Можно показать, что OLS оценки бет в такой модели состоятельны и асимптотически нормальны (с помощью теории Z-оценок и pseudo-score статистик; пишите в комментах, если хотите про это подробнее почитать.) Однако здесь мы вынуждены предполагать, что у регрессоров существует матрица вторых моментов, которая невырождена и конечна (вторая строка на пикче).

Что тут важно:
1. В отличие от нормальной регрессии, мы налагаем ограничения на распределение регрессоров. Это допущение скорее технического характера (мы всегда можем сказать, что рассматриваем только иксы в интервале от a до b, что обеспечит соблюдение второй строки), бат стил.
2. Тесты в такой модели асимптотические — нам нужно достаточное количество наблюдений, они не работают для малых выборок.
3. Статвывод в такой модели можно проводить как условно при данных регрессорах, так и маргинально: вторая строка с картинки и независимость наблюдений гарантируют, что результаты совпадут.
Диаграммы Лексиса - полезный инструмент для того, чтобы поразбираться с анализом цензурированных данных (ака анализом дожития) и демографией в частности.

Плюс здесь какие-то ну очень красивые визуализации, хочется распечатать на открытки.

#dataviz
Как войны и образ жизни влияют на мужскую и женскую смертность

Здесь такой интересный тип графика – диаграмма Лексиса (или сетка Лексиса). По горизонтали – временной период, по вертикали – возраст. Так получается, что полоска
- по горизонтали – люди разных лет рождения, но одинакового возраста – сверстники
- по диагонали – люди, родившиеся в одинаковый период времени – ровесники
- по вертикали – люди, живущие в конкретный период времени – современники

Более темный синий цвет означат, что смертность мужчин была выше, красный – выше смертность женщин.

И посмотрите как четко видны крупные конфликты, как Первая мировая война, Вторая мировая война, Гражданская война в Испании (1936-1939 гг.), Гражданская война в Финляндии (1918 г.). Такие четкие вертикальный полосы демонстрируют сильное превышение смертности среди мужчин, особенно среди призывников младших возрастов.
Прервем молчание красивым графиком про ИМТ взрослого населения в США отсюда.

Что мне нравится на пикче: все.

Начнем с главного.

1. Мы видим двумерную гистограмму совместного распределения роста и веса; частота каждой клеточки передается ее размером.
2. ИМТ — это детерминистическая функция роста и веса; на основе него выделяют степени ожирения / дистрофии. Эти классы показаны тонкой пунктирной линией и дополнительно выделены цветом.

Пройдемся по деталям.

1. Отдельные квадратики перекрывают друг друга. Это не мешает восприятию и придает изюминку и ритм. У графика словно появляется материальное / физическое измерение, какая-то тактильность; как будто он составлен из карточек.
2. Обратите внимание, как показано разбиение на степени ожирения / дистрофии. Общий тон задают тоненькие линии; "карточки" нарисованы поверх линий, поэтому введена дополнительная цветовая кодировка.
3. Палитра офигенная: негромкая, не выжигает глаза, устойчива ко всем видам дальтонизма и переводу в ЧБ вид (чекал вот тут). Нормальный ИМТ закодирован белым — это же гениально.
4. На графике нет отдельной легенды: она вынесена в свободное место наверху и совмещена с информацией о том, какая часть взрослой популяции приходится на каждый класс ИМТ.
5. Очень читаемые и одновременно ненавязчивые оси. При этом помимо оси X (вес) и Y (рост) у нас появляется третья ось: класс ИМТ. Обратите внимание, как органично включены единицы измерения в подписи на осях.
6. Оценим рубленый моноширинный шрифт для самого графика. Главная мысль напечатана на самом графике шрифтом с засечками.
7. На графике указан источник данных.

Крч, вах-вах, очень хорошо, Nathan Yau (автор графика) — виртуоз, хочу такой постер. (Иллюстрация сделана в R и потом допилена в Adobe Illustrator).

#dataviz
душно про дату
Продолжаем ярмарку тщеславия #бэкстейдж Свеженькая публикация в форме letter'а. Изначально была в виде труЪ статьи, но после пары реджектов ужалась до письма. Обидно, я там такую красоту наводил в табличках из приложений. Никакой сложной статистики, просто…
Контент про матстат будет попозже, пока продолжим разговор про датавиз и обратим свой взор на таблицы. Почему-то исследователи забивают болт на оформление и верстку табличек; иногда создается ощущение, что к публикации их прикладывают для галочки. Не надо так.

Рассмотрим на примере таблицы из публикации про скрининг диабета. Увы, в процессе переписывания статьи в формат письма таблички были отброшены и в самой публикации вы их не увидите; покажу их вам на бутлегерских правах. На рис. 1 вы видите таблицу в том виде, в котором она была в черновике рукописи статьи. На рис. 2 вы видите мой вариант переверстки. Давайте пройдемся по тому, что я поменял и почему.

Субстантивно:

* Таблица содержит статистику ответов на один из вопросов анкеты (таких табличек в приложениях к статье было много). В шапку таблицы я добавил номер вопроса, чтобы было легче ориентироваться (Question 10).

* Добавил структуру в организацию строчек.
Глобально ответа всего два: либо программы скрининга нет и разговаривать не о чем, либо программа скрининга есть, и тут начинаются нюансы: на уровне федеральном или местном, бесплатно для пациента или же на возмездной основе. В изначальной таблице все эти ответы представлены как равноправные; в моей версии я попытался отразить их иерархию и структуру.

Что по деталям.

* Боковик (первый столбик) выровнял по левому краю.
* Прографку (содержимое таблички) выравнял по разрядам, чтобы числа было проще сравнивать.
* Курсивом выделил ключевые слова ответа. Первый уровень (да / нет) заверстал капсом (YES / NO).
* Поправил дефисы на короткие тире (вы все еще путаете типографские черточки? тогда мы идем к вам! про английскую типографику можно почитать здесь и вот тут).
* Убрал ненужные границы клеток.

Все манипуляции проводил в обычном MS Word.

#бэкстейдж #tables
Разговор про выбросы часто выглядит чрезвычайно куцо.
* "Выбросы — это точечки и звездочки на босксплоте."
* "Регрессия / t-тест плохо переваривают выбросы, поэтому их нужно удалять."
* "Если в данных есть выбросы, то нужно использовать непараметрику / ранговые подходы."
И прочее, и прочее.

Редко звучит мысль о том, что не надо просто так удалять выбросы, а стоит задуматься над тем, почему и откуда они взялись в ваших данных, являются ли они органичной частью даты или же это ошибки, хотим ли мы их моделировать, или для нас они экстраординарное явление, которое учитывать в нашей модели мы не хотим. Мысль, что для выбросов стоит предложить вероятностную модель и работать с ними в рамках нее, звучит еще реже.

Теперь слайды.

На Рис. 1 сверху представлена гистограмма некоторой величины X, жирной красной линией отмечено среднее, тоненькими +- SD. Снизу пририсован боксплот: он настолько вырожден, что видно только десять выбросов.

Если мы занимаемся физикой или биомедициной и это наши измерения, то вполне может быть так, что вот эти десять аутлайеров — это какая-то ерунда. Кабель плохо воткнули или при переносе данных кто-то опечатался нулем. В таком случае исключение этих аутлайеров — вполне логичный шаг, который даст нам картинку на Рис. 2.

Посмотрим на это с другой стороны: вы — бузинес, а X — это ваши продажи (отдельные чеки). Действуем так же, как и в прошлый раз, да ведь? Ну хз. На эти ~5% чеков в сумме приходится 60 миллионов выручки, в то время как остальные 200 чеков обеспечивают всего 20 миллионов. Случайность ли это? Или осознанная бизнес-модель, когда реальную выручку вам генерит всего пара крупных контрактов, а все остальное — это скорее маркетинг? Если последнее, то применение ранговых критериев и тем более исключение выбросов сыграет с вами злую шутку.

Наблюдения становятся для нас аутлайерами не потому, что какая-то статистическая процедура пометила их звездочкой. Как мы помним, любой статвывод делается в некоторой вероятностной модели. Поэтому было бы здорово, если бы аналитики явно описывали эту модель, а затем задумывались, подходит ли она под их ситуацию. Выбросами наблюдения становятся только в контексте, и что для одной задачи шум и data contamination, то для другой задачи — норма и совершенно ожидаемое наблюдение.

Больше про работу с выбросами можно узнать вот тут; советую прочитать хотя бы раздел 1.1, он хорошо описывает проблематику.

#statistics
Вот здесь человек наук хорошо описал, почему сделать грамотную иллюстрацию - это не просто три строчки из ггплота. Собственно, тот же Тафти не просто так ест свой хлеб и пишет книжки и научные статьи (у Тафти кстати в анамнезе матстат и эпидемиология). Похожие соображения касаются и таблиц.

По этой причине мне кажется очень полезным следить за тем, что пишут и говорят дизайнеры, верстальщики и редактора. Если хотя бы изредка применять на практике штуки, про которые пишут дизайнеры, то качество текстов вырастает на порядок, я гарантирую это.

#dataviz
Please open Telegram to view this post
VIEW IN TELEGRAM
Автор умер...

...как студент и возродился в новом социальном статусе магистра. Все ещё осваиваюсь в новой роли и переживаю приливы эйфории по этому поводу. Из этого так же следует, что посты будут чуть чаще, чем раньше.

Разбавим организационную часть статистической пользой. Лена Убогоева запилила пост про расчёт выборки для исследования, и в комментариях состоялась дискуссия. Заходите почитать и поучаствовать. А я вам принесу саммари обсуждения.
Forwarded from Matt
Давайте я попробую пересказать то, что пишет Максим, чуть более упрощенно. Максим может меня поправить, если я где-то навру.

1. Подход с планированием исследования и предварительным расчетом выборки -- идея скорее хорошая и оно должно бы так работать. На практике однако возникает вопрос, как определить границу минимально интересного эффекта и как определить ожидаемую дисперсию в группах.

2. В медицине это превратилось в карго-культ потому, что по факту там занимаются подгонкой задачи под ответ. То есть не на основе вводных считают количество пациентов, а наоборот: у нас есть понимание, сколько мы можем набрать пациентов / сколько их есть, и дальше мы подбираем такие значения границы эффекта и дисперсий, чтобы получить то количество пациентов, которое нам надо. Честнее было бы написать сразу, что проанализировали столько, сколько нашли.

3. В классической статистике у нас есть асимметрия между нулевой и альтернативной гипотезами. Мы можем отвергнуть нулевую гипотезу в пользу альтернативы, которую принимаем (потому что вероятность ошибки первого рода у нас под контролем). Однако вероятность ошибки второго рода мы не можем контролировать явно, поэтому мы не можем принять нулевую гипотезу, мы ее просто не отвергаем, что по факту надо интерпретировать как "на этих данных мы ничего не можем сказать" (потому что хз, то ли нулевая гипотеза и правда верна, то ли просто выборка маловата).

Расчет выборки позволяет нам проконтролировать вероятность ошибки второго рода, таким образом мы можем не только отвергнуть нулевую гипотезу, но и принять ее.

4. Сам расчет выборки исходя из мощности сильно завязан на тестирование гипотез. При этом тестирование гипотез -- это дихотомизирующая процедура, ответ которой "да / хз" в общем случае и "да / нет" при посчитанной выборке. Это все сильно ограничивает нас и надо бы от разговора о мощности теста перейти к разговору об оценке эффекта. То есть не гипотезы тестировать, а доверительные интервалы строить. И считать выборку так, чтобы достигнуть заранее предписанной длины доверительного интервала.

5. Расчет выборки, если мы говорим про что-то сложнее т-теста -- нетривальная задача, потому что для него требуется много вводных, которые еще и сложным образом зависят друг от друга. Поэтому как правило считается не точная выборка ("при такой-то выборке мощность ровно такая-то"), а ее верхняя оценка ("при такой-то выборке мощность как минимум вот такая").
Про цвета

Сто лет молчу, молчал бы и дальше, но у меня тут сложилось бинго из ссылок, поэтому мне надо с кем-то поделиться, а с кем делиться, если не с любимыми пампишеками.

1. Увесистая онлайн-книжка про цвета, физиологию восприятия цвета и цветовые модели и пространства. Советую прочитать хотя бы первую главу. Рекомендую также перейти на главную страничку автора и полистать другие его проекты. Там есть, например, книжка про смешивание цветов в акварели.

2. Отчет xkcd о масштабном исследовании нейминга и восприятия цветов, которое Рендел делал на своем сайте. Всякие интересные наблюдения, красивые картиночки. Из плюсов: посетители xkcd лояльны, поэтому готовы литерали часами описывать цвета просто по фану, география охватывает почти весь мир. Из минусов: это convenience sample из посетителей xkcd.

3. Палитра на xkcd, составленная по результатам исследования выше. Содержит 954 цвета и забавные названия. Вроде как даже есть пакеты для R, которые реализуют доступ к этой палитре по названиям.

4. На сладкое — пдфка со свотчами стандартных цветов из R. Держу ее под рукой, когда рисую графики. Очень нравится использовать ivory для фона.

Причастным желаю счастливого адвента. Непричастным — осталось ночь простоять, да день продержаться и будут новогодние праздники, отпуск не за горами!

To be continued...


#dataviz
Про оформление отчетов

Меня тут студенты спрашивали про то, до какого знака округлять и как оформлять таблички и чиселка в тексте. Собрал сколько-то источников с пояснениями, выложу и сюда тоже (да, я помню, что обещал про проверки на нормальность, к середине января распинаю проекты, закончится семестр и сяду писать текст =).

Вообще, это не то чтобы какие-то устоявшиеся правила, это скорее вопрос дизайна, верстки, типографики и стандартов принятых в журнале. У физиков есть какие-то там свои конвенции, но попытка их применить в биомедицинском журнале достаточно часто вызывает непонимание рецензентов (например, у физиков принято среднее и sd округлять до разного количества знаков; биомедикам такое не заходит). Поэтому вместо жестких рекомендаций посоветую штуки, которые можно почитать, чтобы понять, чем руководствоваться при принятии решений (то есть, как можно уточнить правило "верстайте хорошо, а плохо не верстайте"). Начнем с двух статей; в обоих случаях советую почитать также статьи из библиографии, которые они упоминают.

1. Rudiments of Numeracy, Ehrenberg, 1977 — задает самую базовую рамку для верстки таблиц. Очень советую всем, хорошо написано, вынес оттуда много важного, а еще там очень красиво и минималистично. Рекомендасьон.
2. A Case for Simple Tables, Martin Koschat, 2005 — похожий текст, но поновее. На мой вкус, труба пониже, дым пожиже.

Из более объемных текстов можно посмотреть в сторону книжек Tufte; начните с The visual display of quantitative information, 2nd ed., 2007. Там про графики и иллюстрации вообще, но есть и про таблички. Автора люто-бешено котируют ребята из Бюро Горбунова и дизайнеры вообще.

Из более фастфудного: можно погулять по каналу и блогу Ильи Бирмана, он часто пишет про представление информации и таблички. В качестве стартовой точки можете взять вот этот список коротких видосиков с его курса про интерфейс и представление информации, минимум треть из них релевантна и для нас, пишущих и верстающих отчетики.

Есть специальный канал табличный дизайн, там прицельно про это пишут. У них же есть табличный курс, я фоново имею в плане на него сходить, когда будет время и настроение. Я про них писал в первом посте на канале.

Ну и можете погуглить всякие стайлгайды, госты и руководства для инженеров, физиков и верстальщиков, там наверняка этот вопрос будет освещен и нормирован.

А еще 31.12 активной жизни канала исполнился год. Ура и вау, то ли еще будет! 🙏

#dataviz #tables
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/11 00:17:00
Back to Top
HTML Embed Code: