План курса «Большие данные для информатики здравоохранения»

Важными темами для нас являются аналитика в сфере здравоохранения и интеллектуальный анализ данных. Приложения для здравоохранения и медицинские данные пересекаются с наукой о данных и аналитикой больших данных. Понимание алгоритмов обработки больших данных.

Эта статья включает резюме курса «Большие данные для информатики здравоохранения» в GaTech (этот курс является частью специализации по машинному обучению)
Он предназначен для того, чтобы вы следили за серией статей. В конце серии вы должны достичь следующих целей обучения:

понимание медицинских данных
понимание различных аналитических алгоритмов
понимание систем больших данных

Цели обучения позволят вам построить модели здравоохранения. Например, модели для прогнозирования риска отдельных заболеваний, рекомендации по лечению, объединение пациентов в группы с общими характеристиками и поиск похожих пациентов.

Введение

Общие сведения об отрасли здравоохранения в США

Индустрия здравоохранения огромна, общие расходы составляют 3,8 триллиона долларов США.
Сюда входят огромные отходы — это оценивается в 764 миллиарда долларов США. Помимо финансовых потерь существуют огромные проблемы с качеством медицинского обслуживания, что приводит к гибели людей.

Четыре противопоставления больших данных для систем здравоохранения

Объем
Разнообразие
Скорость — данные поступают в режиме реального времени
Правдивость - много шума, ошибок, пропущенных данных, ложных срабатываний

Большие данные в здравоохранении

Здравоохранение генерирует огромные объемы данных. Например, для каждого генома человека требуется 200 ГБ необработанных данных, для медицинских изображений один fRMI составляет 300 ГБ. Медицинские данные оцениваются в 100 петабайт, и эта цифра продолжает расти.
Также генерируется много данных клинического администрирования. Данные осмотров и датчиков тела, таких как смарт-устройства и т. д.

Огромное разнообразие данных затрудняет поиск закономерностей в данных и помощь пациентам.

Ученый по данным

Какие навыки нужны специалисту по данным:

Математика и статистика
Знание предметной области и навыки
Программирование и базы данных
Коммуникация и визуализация

Обзор курса

Темы включают: приложения для работы с большими данными, используемые алгоритмы, программные системы и создаваемые

Приложения для здравоохранения

Прогнозное моделирование — это использование исторических данных для прогнозирования будущих результатов.
Вычислительное фенотипирование — превращение беспорядочных электронных медицинских записей в осмысленные концепции клиники
Сходство пациентов — использует данные о состоянии здоровья для кластеризации и группировки пациентов.

Прогнозное моделирование. Проблемы, с которыми пришлось столкнуться:

У нас есть миллионы данных о пациентах + информация о каждом их диагнозе + информация о лекарствах +…
Нужно построить так много моделей, это не один алгоритм, это последовательность вычислительных задач — это конвейер со множеством опций, которые порождают множество других конвейеров для сравнения.

Вычислительное фенотипирование — это необработанные данные о пациентах, из которых он состоит:

Демографическая информация
Диагноз
Медикамент
Клинические заметки
Процедуры
Лабораторный анализ
…. история болезни пациента

Фенотипирование — это преобразование приведенных выше исходных данных пациента в медицинские понятия (фенотипы).

Примером того, как это делается, может быть рассмотрение алгоритма фенотипирования диабета 2 типа.

EHR: Электронная домашняя карта пациента

Когда вы будете следовать приведенному выше алгоритму, вы можете спросить, почему в истории болезни так много проверок. Почему cannot мы как раз спрашиваете для того чтобы увидеть если пациент имеет мочеизнурение типа 2. Причина такого обширного и сложного рабочего процесса заключается в недостаточном качестве данных в истории болезни. Эти проверки учитывают ошибки в данных.

Сходство пациентов. Напомним, что это группировка пациентов со схожими характеристиками.

Это рассуждения на основе случая, когда врач будет смотреть на предыдущих пациентов, а затем соответствующим образом группировать их.
Если врач делает это вручную, каждый врач будет видеть только своих пациентов. Было бы лучше добавить пациента в глобальную базу данных и расширить группу до пациентов, которых видел любой врач.

Алгоритмы работы с большими данными

Классификация - маркировка данных на основе их признаков
Кластеризация — группировка данных со сходными характеристиками.
Уменьшение размерности - уменьшите набор функций, чтобы включить функции, которые важны для прогнозов.
Графический анализ - создайте сеть пациентов и болезней и то, как они связаны друг с другом.

Системы больших данных

Нам нужны системы больших данных для обработки больших данных:

Hadoop — распределенная дисковая система больших данных
Spark-распределенная в памяти система данных

Резюме заметок по курсу для каждой темы, затронутой в уроках:

Надеюсь, вы чему-то научились.

-R