Важными темами для нас являются аналитика в сфере здравоохранения и интеллектуальный анализ данных. Приложения для здравоохранения и медицинские данные пересекаются с наукой о данных и аналитикой больших данных. Понимание алгоритмов обработки больших данных.

Эта статья включает резюме курса «Большие данные для информатики здравоохранения» в GaTech (этот курс является частью специализации по машинному обучению)
Он предназначен для того, чтобы вы следили за серией статей. В конце серии вы должны достичь следующих целей обучения:

  1. понимание медицинских данных
  2. понимание различных аналитических алгоритмов
  3. понимание систем больших данных

Цели обучения позволят вам построить модели здравоохранения. Например, модели для прогнозирования риска отдельных заболеваний, рекомендации по лечению, объединение пациентов в группы с общими характеристиками и поиск похожих пациентов.

Введение

Общие сведения об отрасли здравоохранения в США

Индустрия здравоохранения огромна, общие расходы составляют 3,8 триллиона долларов США.
Сюда входят огромные отходы — это оценивается в 764 миллиарда долларов США. Помимо финансовых потерь существуют огромные проблемы с качеством медицинского обслуживания, что приводит к гибели людей.

Четыре противопоставления больших данных для систем здравоохранения

  1. Объем
  2. Разнообразие
  3. Скорость — данные поступают в режиме реального времени
  4. Правдивость - много шума, ошибок, пропущенных данных, ложных срабатываний

Большие данные в здравоохранении

Здравоохранение генерирует огромные объемы данных. Например, для каждого генома человека требуется 200 ГБ необработанных данных, для медицинских изображений один fRMI составляет 300 ГБ. Медицинские данные оцениваются в 100 петабайт, и эта цифра продолжает расти.
Также генерируется много данных клинического администрирования. Данные осмотров и датчиков тела, таких как смарт-устройства и т. д.

Огромное разнообразие данных затрудняет поиск закономерностей в данных и помощь пациентам.

Ученый по данным

Какие навыки нужны специалисту по данным:

  1. Математика и статистика
  2. Знание предметной области и навыки
  3. Программирование и базы данных
  4. Коммуникация и визуализация

Обзор курса

Темы включают: приложения для работы с большими данными, используемые алгоритмы, программные системы и создаваемые

Приложения для здравоохранения

  1. Прогнозное моделирование — это использование исторических данных для прогнозирования будущих результатов.
  2. Вычислительное фенотипирование — превращение беспорядочных электронных медицинских записей в осмысленные концепции клиники
  3. Сходство пациентов — использует данные о состоянии здоровья для кластеризации и группировки пациентов.

Прогнозное моделирование. Проблемы, с которыми пришлось столкнуться:

  1. У нас есть миллионы данных о пациентах + информация о каждом их диагнозе + информация о лекарствах +…
  2. Нужно построить так много моделей, это не один алгоритм, это последовательность вычислительных задач — это конвейер со множеством опций, которые порождают множество других конвейеров для сравнения.

Вычислительное фенотипирование — это необработанные данные о пациентах, из которых он состоит:

  1. Демографическая информация
  2. Диагноз
  3. Медикамент
  4. Клинические заметки
  5. Процедуры
  6. Лабораторный анализ
  7. …. история болезни пациента

Фенотипирование — это преобразование приведенных выше исходных данных пациента в медицинские понятия (фенотипы).

Примером того, как это делается, может быть рассмотрение алгоритма фенотипирования диабета 2 типа.

EHR: Электронная домашняя карта пациента

Когда вы будете следовать приведенному выше алгоритму, вы можете спросить, почему в истории болезни так много проверок. Почему cannot мы как раз спрашиваете для того чтобы увидеть если пациент имеет мочеизнурение типа 2. Причина такого обширного и сложного рабочего процесса заключается в недостаточном качестве данных в истории болезни. Эти проверки учитывают ошибки в данных.

Сходство пациентов. Напомним, что это группировка пациентов со схожими характеристиками.

Это рассуждения на основе случая, когда врач будет смотреть на предыдущих пациентов, а затем соответствующим образом группировать их.
Если врач делает это вручную, каждый врач будет видеть только своих пациентов. Было бы лучше добавить пациента в глобальную базу данных и расширить группу до пациентов, которых видел любой врач.

Алгоритмы работы с большими данными

  1. Классификация - маркировка данных на основе их признаков
  2. Кластеризация — группировка данных со сходными характеристиками.
  3. Уменьшение размерности - уменьшите набор функций, чтобы включить функции, которые важны для прогнозов.
  4. Графический анализ - создайте сеть пациентов и болезней и то, как они связаны друг с другом.

Системы больших данных

Нам нужны системы больших данных для обработки больших данных:

  1. Hadoop — распределенная дисковая система больших данных
  2. Spark-распределенная в памяти система данных

Резюме заметок по курсу для каждой темы, затронутой в уроках:

  1. Предиктивное моделирование
  2. "Уменьшение карты"
  3. Метрики классификации и регрессии для прогнозного моделирования
  4. Ансамблевые методы
  5. Вычислительное фенотипирование
  6. Градиентный спуск
  7. Кластеризация
  8. "Искра"
  9. Графический анализ
  10. Глубокие нейронные сети

Надеюсь, вы чему-то научились.

-R