Важными темами для нас являются аналитика в сфере здравоохранения и интеллектуальный анализ данных. Приложения для здравоохранения и медицинские данные пересекаются с наукой о данных и аналитикой больших данных. Понимание алгоритмов обработки больших данных.
Эта статья включает резюме курса «Большие данные для информатики здравоохранения» в GaTech (этот курс является частью специализации по машинному обучению)
Он предназначен для того, чтобы вы следили за серией статей. В конце серии вы должны достичь следующих целей обучения:
- понимание медицинских данных
- понимание различных аналитических алгоритмов
- понимание систем больших данных
Цели обучения позволят вам построить модели здравоохранения. Например, модели для прогнозирования риска отдельных заболеваний, рекомендации по лечению, объединение пациентов в группы с общими характеристиками и поиск похожих пациентов.
Введение
Общие сведения об отрасли здравоохранения в США
Индустрия здравоохранения огромна, общие расходы составляют 3,8 триллиона долларов США.
Сюда входят огромные отходы — это оценивается в 764 миллиарда долларов США. Помимо финансовых потерь существуют огромные проблемы с качеством медицинского обслуживания, что приводит к гибели людей.
Четыре противопоставления больших данных для систем здравоохранения
- Объем
- Разнообразие
- Скорость — данные поступают в режиме реального времени
- Правдивость - много шума, ошибок, пропущенных данных, ложных срабатываний
Большие данные в здравоохранении
Здравоохранение генерирует огромные объемы данных. Например, для каждого генома человека требуется 200 ГБ необработанных данных, для медицинских изображений один fRMI составляет 300 ГБ. Медицинские данные оцениваются в 100 петабайт, и эта цифра продолжает расти.
Также генерируется много данных клинического администрирования. Данные осмотров и датчиков тела, таких как смарт-устройства и т. д.
Огромное разнообразие данных затрудняет поиск закономерностей в данных и помощь пациентам.
Ученый по данным
Какие навыки нужны специалисту по данным:
- Математика и статистика
- Знание предметной области и навыки
- Программирование и базы данных
- Коммуникация и визуализация
Обзор курса
Темы включают: приложения для работы с большими данными, используемые алгоритмы, программные системы и создаваемые
Приложения для здравоохранения
- Прогнозное моделирование — это использование исторических данных для прогнозирования будущих результатов.
- Вычислительное фенотипирование — превращение беспорядочных электронных медицинских записей в осмысленные концепции клиники
- Сходство пациентов — использует данные о состоянии здоровья для кластеризации и группировки пациентов.
Прогнозное моделирование. Проблемы, с которыми пришлось столкнуться:
- У нас есть миллионы данных о пациентах + информация о каждом их диагнозе + информация о лекарствах +…
- Нужно построить так много моделей, это не один алгоритм, это последовательность вычислительных задач — это конвейер со множеством опций, которые порождают множество других конвейеров для сравнения.
Вычислительное фенотипирование — это необработанные данные о пациентах, из которых он состоит:
- Демографическая информация
- Диагноз
- Медикамент
- Клинические заметки
- Процедуры
- Лабораторный анализ
- …. история болезни пациента
Фенотипирование — это преобразование приведенных выше исходных данных пациента в медицинские понятия (фенотипы).
Примером того, как это делается, может быть рассмотрение алгоритма фенотипирования диабета 2 типа.
EHR: Электронная домашняя карта пациента
Когда вы будете следовать приведенному выше алгоритму, вы можете спросить, почему в истории болезни так много проверок. Почему cannot мы как раз спрашиваете для того чтобы увидеть если пациент имеет мочеизнурение типа 2. Причина такого обширного и сложного рабочего процесса заключается в недостаточном качестве данных в истории болезни. Эти проверки учитывают ошибки в данных.
Сходство пациентов. Напомним, что это группировка пациентов со схожими характеристиками.
Это рассуждения на основе случая, когда врач будет смотреть на предыдущих пациентов, а затем соответствующим образом группировать их.
Если врач делает это вручную, каждый врач будет видеть только своих пациентов. Было бы лучше добавить пациента в глобальную базу данных и расширить группу до пациентов, которых видел любой врач.
Алгоритмы работы с большими данными
- Классификация - маркировка данных на основе их признаков
- Кластеризация — группировка данных со сходными характеристиками.
- Уменьшение размерности - уменьшите набор функций, чтобы включить функции, которые важны для прогнозов.
- Графический анализ - создайте сеть пациентов и болезней и то, как они связаны друг с другом.
Системы больших данных
Нам нужны системы больших данных для обработки больших данных:
- Hadoop — распределенная дисковая система больших данных
- Spark-распределенная в памяти система данных
Резюме заметок по курсу для каждой темы, затронутой в уроках:
- Предиктивное моделирование
- "Уменьшение карты"
- Метрики классификации и регрессии для прогнозного моделирования
- Ансамблевые методы
- Вычислительное фенотипирование
- Градиентный спуск
- Кластеризация
- "Искра"
- Графический анализ
- Глубокие нейронные сети
Надеюсь, вы чему-то научились.
-R