Telegram Group & Telegram Channel
Работа с данными – это обычно боль. Нет, мы, конечно, любим числа и рады бы найти интересный паттерн, а затем обернуть его в красивый график. Но эта часть работы – только вишенка на торте трудовых будней. Большая часть действий – это очистка данных, преобразование их в другие форматы, соединение разных источников в один и борьба с бесконечными техническими проблемами

В этом озере боли аналитика есть особый залив, покрытый солью от выплаканных слёз. Это – медицинские данные. Речь даже не о приватности данных, а о том, что они никогда не похожи на красивые заполненные таблички из учебных курсов по статистике. В них куча пропусков, странностей и ошибок. Вот несколько историй, с которыми мне пришлось столкнуться:

🍯 В таблице о пациентах с диабетом был столбец со значениями сахара в крови. Обычно числа колебались около нормальных показателей в 3,3-5,5. Но у одного пациента было записано значение 5000. Представляю как тяжело было брать анализ: у пациента из вены должен был капать мёд

📝 „Тоже мне проблема“, – подумают некоторые. Такие явные выбросы легко увидеть: достаточно построить график с распределением или посчитать статистики. Вот только для некоторых пациентов показатели были не известны. Иногда ячейка была пустой (идеальный вариант), но порой врачи писали „не известно“, „-“, „нет“, „не измерено“ или ещё один из тысяч вариантов. Для одного из пациентов было записано загадочное „ы“, а иногда встречалась запись „норма“. Преобразовать это всё в числа или нормальные пропуски – отдельная головная боль

💔 В другом проекте мы читали записи из медицинских карт пациентов с ринитом и разбивали информацию по категориям. Моей задачей было категоризовать жалобы: например: аллергия на пыль или на животных. Один из пациентов на вопрос о жалобах честно ответил „Жизнь в Томске“, что врач и записал в карту. Это какая аллергия?

🏥 А вот другая запись в поле жалоб: „2 недели находилась в клиниках СибГМУ“. Сочувствую, но это ещё не самый плохой вариант (вы бы видели их общежития)

Но самые чудесные записи были из педиатрического отделения:
👩‍⚕️ Жалобы: осмотрена аллергологом
😨 Кровь на IgE спец. не сдали (ребенок испугался)
😷 Жалобы: кхыкает
👃 Жалобы: сопит носиком
😤 Жалобы: носовое дыхание свободное

И бесконечные опечатки: „насморок“, „золоженость“ и даже „задложенность носа“. Но, может быть, это я не знаком с медицинскими терминами. Наверное, что-то из латыни

А какие ужасы встречали в данных вы?

#статистика@chelovek_nauk



group-telegram.com/chelovek_nauk/698
Create:
Last Update:

Работа с данными – это обычно боль. Нет, мы, конечно, любим числа и рады бы найти интересный паттерн, а затем обернуть его в красивый график. Но эта часть работы – только вишенка на торте трудовых будней. Большая часть действий – это очистка данных, преобразование их в другие форматы, соединение разных источников в один и борьба с бесконечными техническими проблемами

В этом озере боли аналитика есть особый залив, покрытый солью от выплаканных слёз. Это – медицинские данные. Речь даже не о приватности данных, а о том, что они никогда не похожи на красивые заполненные таблички из учебных курсов по статистике. В них куча пропусков, странностей и ошибок. Вот несколько историй, с которыми мне пришлось столкнуться:

🍯 В таблице о пациентах с диабетом был столбец со значениями сахара в крови. Обычно числа колебались около нормальных показателей в 3,3-5,5. Но у одного пациента было записано значение 5000. Представляю как тяжело было брать анализ: у пациента из вены должен был капать мёд

📝 „Тоже мне проблема“, – подумают некоторые. Такие явные выбросы легко увидеть: достаточно построить график с распределением или посчитать статистики. Вот только для некоторых пациентов показатели были не известны. Иногда ячейка была пустой (идеальный вариант), но порой врачи писали „не известно“, „-“, „нет“, „не измерено“ или ещё один из тысяч вариантов. Для одного из пациентов было записано загадочное „ы“, а иногда встречалась запись „норма“. Преобразовать это всё в числа или нормальные пропуски – отдельная головная боль

💔 В другом проекте мы читали записи из медицинских карт пациентов с ринитом и разбивали информацию по категориям. Моей задачей было категоризовать жалобы: например: аллергия на пыль или на животных. Один из пациентов на вопрос о жалобах честно ответил „Жизнь в Томске“, что врач и записал в карту. Это какая аллергия?

🏥 А вот другая запись в поле жалоб: „2 недели находилась в клиниках СибГМУ“. Сочувствую, но это ещё не самый плохой вариант (вы бы видели их общежития)

Но самые чудесные записи были из педиатрического отделения:
👩‍⚕️ Жалобы: осмотрена аллергологом
😨 Кровь на IgE спец. не сдали (ребенок испугался)
😷 Жалобы: кхыкает
👃 Жалобы: сопит носиком
😤 Жалобы: носовое дыхание свободное

И бесконечные опечатки: „насморок“, „золоженость“ и даже „задложенность носа“. Но, может быть, это я не знаком с медицинскими терминами. Наверное, что-то из латыни

А какие ужасы встречали в данных вы?

#статистика@chelovek_nauk

BY человек наук


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/chelovek_nauk/698

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI — soaring 7.9% over last year — underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. The regulator said it had received information that messages containing stock tips and other investment advice with respect to selected listed companies are being widely circulated through websites and social media platforms such as Telegram, Facebook, WhatsApp and Instagram. READ MORE "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from jp


Telegram человек наук
FROM American