group-telegram.com/chelovek_nauk/698
Last Update:
Работа с данными – это обычно боль. Нет, мы, конечно, любим числа и рады бы найти интересный паттерн, а затем обернуть его в красивый график. Но эта часть работы – только вишенка на торте трудовых будней. Большая часть действий – это очистка данных, преобразование их в другие форматы, соединение разных источников в один и борьба с бесконечными техническими проблемами
В этом озере боли аналитика есть особый залив, покрытый солью от выплаканных слёз. Это – медицинские данные. Речь даже не о приватности данных, а о том, что они никогда не похожи на красивые заполненные таблички из учебных курсов по статистике. В них куча пропусков, странностей и ошибок. Вот несколько историй, с которыми мне пришлось столкнуться:
🍯 В таблице о пациентах с диабетом был столбец со значениями сахара в крови. Обычно числа колебались около нормальных показателей в 3,3-5,5. Но у одного пациента было записано значение 5000. Представляю как тяжело было брать анализ: у пациента из вены должен был капать мёд
📝 „Тоже мне проблема“, – подумают некоторые. Такие явные выбросы легко увидеть: достаточно построить график с распределением или посчитать статистики. Вот только для некоторых пациентов показатели были не известны. Иногда ячейка была пустой (идеальный вариант), но порой врачи писали „не известно“, „-“, „нет“, „не измерено“ или ещё один из тысяч вариантов. Для одного из пациентов было записано загадочное „ы“, а иногда встречалась запись „норма“. Преобразовать это всё в числа или нормальные пропуски – отдельная головная боль
💔 В другом проекте мы читали записи из медицинских карт пациентов с ринитом и разбивали информацию по категориям. Моей задачей было категоризовать жалобы: например: аллергия на пыль или на животных. Один из пациентов на вопрос о жалобах честно ответил „Жизнь в Томске“, что врач и записал в карту. Это какая аллергия?
🏥 А вот другая запись в поле жалоб: „2 недели находилась в клиниках СибГМУ“. Сочувствую, но это ещё не самый плохой вариант (вы бы видели их общежития)
Но самые чудесные записи были из педиатрического отделения:
👩⚕️ Жалобы: осмотрена аллергологом
😨 Кровь на IgE спец. не сдали (ребенок испугался)
😷 Жалобы: кхыкает
👃 Жалобы: сопит носиком
😤 Жалобы: носовое дыхание свободное
И бесконечные опечатки: „насморок“, „золоженость“ и даже „задложенность носа“. Но, может быть, это я не знаком с медицинскими терминами. Наверное, что-то из латыни
А какие ужасы встречали в данных вы?
#статистика@chelovek_nauk
BY человек наук
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
Share with your friend now:
group-telegram.com/chelovek_nauk/698