Telegram Group & Telegram Channel
Работа с данными – это обычно боль. Нет, мы, конечно, любим числа и рады бы найти интересный паттерн, а затем обернуть его в красивый график. Но эта часть работы – только вишенка на торте трудовых будней. Большая часть действий – это очистка данных, преобразование их в другие форматы, соединение разных источников в один и борьба с бесконечными техническими проблемами

В этом озере боли аналитика есть особый залив, покрытый солью от выплаканных слёз. Это – медицинские данные. Речь даже не о приватности данных, а о том, что они никогда не похожи на красивые заполненные таблички из учебных курсов по статистике. В них куча пропусков, странностей и ошибок. Вот несколько историй, с которыми мне пришлось столкнуться:

🍯 В таблице о пациентах с диабетом был столбец со значениями сахара в крови. Обычно числа колебались около нормальных показателей в 3,3-5,5. Но у одного пациента было записано значение 5000. Представляю как тяжело было брать анализ: у пациента из вены должен был капать мёд

📝 „Тоже мне проблема“, – подумают некоторые. Такие явные выбросы легко увидеть: достаточно построить график с распределением или посчитать статистики. Вот только для некоторых пациентов показатели были не известны. Иногда ячейка была пустой (идеальный вариант), но порой врачи писали „не известно“, „-“, „нет“, „не измерено“ или ещё один из тысяч вариантов. Для одного из пациентов было записано загадочное „ы“, а иногда встречалась запись „норма“. Преобразовать это всё в числа или нормальные пропуски – отдельная головная боль

💔 В другом проекте мы читали записи из медицинских карт пациентов с ринитом и разбивали информацию по категориям. Моей задачей было категоризовать жалобы: например: аллергия на пыль или на животных. Один из пациентов на вопрос о жалобах честно ответил „Жизнь в Томске“, что врач и записал в карту. Это какая аллергия?

🏥 А вот другая запись в поле жалоб: „2 недели находилась в клиниках СибГМУ“. Сочувствую, но это ещё не самый плохой вариант (вы бы видели их общежития)

Но самые чудесные записи были из педиатрического отделения:
👩‍⚕️ Жалобы: осмотрена аллергологом
😨 Кровь на IgE спец. не сдали (ребенок испугался)
😷 Жалобы: кхыкает
👃 Жалобы: сопит носиком
😤 Жалобы: носовое дыхание свободное

И бесконечные опечатки: „насморок“, „золоженость“ и даже „задложенность носа“. Но, может быть, это я не знаком с медицинскими терминами. Наверное, что-то из латыни

А какие ужасы встречали в данных вы?

#статистика@chelovek_nauk



group-telegram.com/chelovek_nauk/698
Create:
Last Update:

Работа с данными – это обычно боль. Нет, мы, конечно, любим числа и рады бы найти интересный паттерн, а затем обернуть его в красивый график. Но эта часть работы – только вишенка на торте трудовых будней. Большая часть действий – это очистка данных, преобразование их в другие форматы, соединение разных источников в один и борьба с бесконечными техническими проблемами

В этом озере боли аналитика есть особый залив, покрытый солью от выплаканных слёз. Это – медицинские данные. Речь даже не о приватности данных, а о том, что они никогда не похожи на красивые заполненные таблички из учебных курсов по статистике. В них куча пропусков, странностей и ошибок. Вот несколько историй, с которыми мне пришлось столкнуться:

🍯 В таблице о пациентах с диабетом был столбец со значениями сахара в крови. Обычно числа колебались около нормальных показателей в 3,3-5,5. Но у одного пациента было записано значение 5000. Представляю как тяжело было брать анализ: у пациента из вены должен был капать мёд

📝 „Тоже мне проблема“, – подумают некоторые. Такие явные выбросы легко увидеть: достаточно построить график с распределением или посчитать статистики. Вот только для некоторых пациентов показатели были не известны. Иногда ячейка была пустой (идеальный вариант), но порой врачи писали „не известно“, „-“, „нет“, „не измерено“ или ещё один из тысяч вариантов. Для одного из пациентов было записано загадочное „ы“, а иногда встречалась запись „норма“. Преобразовать это всё в числа или нормальные пропуски – отдельная головная боль

💔 В другом проекте мы читали записи из медицинских карт пациентов с ринитом и разбивали информацию по категориям. Моей задачей было категоризовать жалобы: например: аллергия на пыль или на животных. Один из пациентов на вопрос о жалобах честно ответил „Жизнь в Томске“, что врач и записал в карту. Это какая аллергия?

🏥 А вот другая запись в поле жалоб: „2 недели находилась в клиниках СибГМУ“. Сочувствую, но это ещё не самый плохой вариант (вы бы видели их общежития)

Но самые чудесные записи были из педиатрического отделения:
👩‍⚕️ Жалобы: осмотрена аллергологом
😨 Кровь на IgE спец. не сдали (ребенок испугался)
😷 Жалобы: кхыкает
👃 Жалобы: сопит носиком
😤 Жалобы: носовое дыхание свободное

И бесконечные опечатки: „насморок“, „золоженость“ и даже „задложенность носа“. Но, может быть, это я не знаком с медицинскими терминами. Наверное, что-то из латыни

А какие ужасы встречали в данных вы?

#статистика@chelovek_nauk

BY человек наук


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/chelovek_nauk/698

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. 'Wild West' Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. In the past, it was noticed that through bulk SMSes, investors were induced to invest in or purchase the stocks of certain listed companies. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from fr


Telegram человек наук
FROM American