Важными темами для нас являются аналитика в сфере здравоохранения и интеллектуальный анализ данных. Приложения для здравоохранения и медицинские данные пересекаются с наукой о данных и аналитикой больших данных. Понимание алгоритмов обработки больших данных.

Эта статья является частью серии статей на тему Большие данные для курса информатики здравоохранения
Вы можете перейти по ссылке выше, чтобы понять эту тему в контексте полного курса. Эту статью о вычислительном фенотипировании можно понять независимо от полного курса.

Примечание. Для этой статьи требуется знание концепций машинного обучения.

Введение

Мы собираемся представить применение кластеризации в здравоохранении, называемое фенотипированием. Фенотип — это медицинское понятие, такое как болезнь или состояние. Мы знаем многие фенотипы пациентов на основе существующих медицинских знаний, таких как основные заболевания, однако существует гораздо больше фенотипов и их подтипов, которые не были обнаружены.

Вычислительное фенотипирование — это способ использовать доступные нам данные для обнаружения этих новых фенотипов.

Фенотипы не предназначены для диагностики заболеваний, мы можем использовать эти фенотипы для прогнозирования затрат на здравоохранение, риска повторной госпитализации и поддержки геномных исследований. и т. д.

Вычислительное фенотипирование

Вычислительное фенотипирование извлекает фенотипы из электронных медицинских карт (EHR)

Это преобразует необработанные электронные медицинские записи с помощью алгоритмов фенотипирования в набор значимых медицинских понятий.

Например, фенотипом может быть такое заболевание, как диабет 2 типа. Необработанные данные состоят из множества различных источников, таких как демографические данные о пациентах, код диагноза, информация о лекарствах и т. д.

Есть много причин, по которым фенотипы не представлены последовательно или надежно в необработанных данных.

  • Данные могут быть зашумленными, отсутствующими данными, и основная цель этих данных — поддержка клинических административных операций, таких как выставление счетов.
  • Данные не предназначены для поддержки исследований.
  • Есть перекрывающиеся и избыточные данные.

Фенотипирование - это процесс получения фенотипов исследовательского уровня.

Алгоритм фенотипирования диабета 2 типа

Цель здесь состоит в том, чтобы определить, есть ли у пациента диабет 2 типа по данным EHR.

Входными данными для алгоритма являются данные ЭМК пациента. Мы анализируем данные EHR для каждого шага рабочего процесса. Есть много путей, которые могут привести к заболеванию. Этот поток решений представляет собой алгоритм фенотипирования.

Приложения для фенотипирования

  • Геномное изучение: взаимосвязь между фенотипическими и генотипическими данными.
  • Клиническое прогностическое моделирование: создание точной, надежной и интерпретируемой модели прогнозирования начала заболевания и других связанных целей, таких как госпитализация.
  • Практические клинические испытания: сравнение эффективности лечения в реальных клинических условиях с использованием данных наблюдений.
  • Измерение качества здравоохранения: речь идет об измерении эффективности и качества медицинской помощи в больницах.

Все эти приложения зависят от алгоритмов фенотипирования.

Геномное широкоассоциативное исследование (GWAS)

Это подход, который включает сканирование биомаркеров, таких как однонуклеотидный полиморфизм (SNP), из ДНК многих людей, чтобы найти генетические вариации, связанные с определенным фенотипом заболевания.

После выявления новых генетических ассоциаций. Исследователи могут использовать эту информацию для разработки более эффективных стратегий выявления, лечения и профилактики заболеваний.

Как проводятся эти исследования?

  • Начните с популяции и определите фенотипы заболевания у пациентов.
  • Сортировать пациентов на две группы, а именно; контроль и кейсы.
    - Группа больных состоит из пациентов с фенотипами заболевания
    - Контрольная группа представляет собой группу пациентов, сходных со случаями, но без фенотипов заболевания
  • Получите образцы ДНК от всех пациентов (случаи и контрольная группа)
  • Наблюдайте за геномами каждого участника на наличие генетических вариаций, которые называются SNP (однонуклеотидный полиморфизм).

Если определенная родовая вариация оказывается значительно более частой в случаях (пациенты с заболеванием) по сравнению с контролем, то говорят, что эта родовая вариация связана с заболеванием.

  • Получив SNP, мы вычисляем частоты SNP в случаях и контроле.
  • На основе частоты мы рассчитываем отношение шансов
  • Затем мы вычисляем соответствующее значение p для отношения шансов

Если p-значение мало, мы можем сделать вывод, что генетическая изменчивость значительна. Связанные с этим генетические вариации могут служить мощными индикаторами области генома человека, которая может вызывать заболевание.

На приведенной выше диаграмме вы можете видеть, что мы определили популяцию (10000), создали две группы случаев (4000) и контрольных (6000). Мы выделили SNP из ДНК всех пациентов.

Для первого SNP (1) мы видим, что контрольная группа показывает частоту вариации G 44,6%, а случаи показывают частоту G 52,6%. При расчете p-значения мы находим очень низкое значение. Это указывает на высокую значимость.

Мы можем провести тот же расчет для SNP2 и найти, что p-значение равно 0,33, что не имеет значения.

Для этого исследования нам необходимо знать высококачественные фенотипы в случаях и контроле, чтобы выполнить этот расчет, поэтому алгоритм фенотипирования очень важен.

Зачем нужны алгоритмы фенотипирования в геномных исследованиях?

Нам нужны богатые и глубокие фенотипические данные для анализа геномных данных. По мере совершенствования технологии секвенирования стоимость создания геномных данных со временем быстро снижается. В то время как стоимость вычислений или закон Мура не могут соответствовать этому совершенствованию технологии секвенирования.

Это означает, что в будущем у нас будет все больше и больше геномных данных о многих людях. Однако из-за сложности создания данных с высоким фенотипом фактически увеличивается, в то время как стоимость геномных данных падает.

Нам нужно изобрести лучшие алгоритмы фенотипирования, чтобы снизить стоимость получения высококачественных фенотипических данных для поддержки геномных исследований.

Клиническое прогнозное моделирование

Алгоритмы фенотипирования также могут помочь в клиническом прогностическом моделировании. Мы рассмотрели Прогнозное моделирование ранее.

Подводя итог, начнем с необработанных данных EHR в качестве входных данных для алгоритма прогнозного моделирования для создания модели.

При использовании необработанных данных возникает много проблем, по этой причине нам необходимо преобразовать необработанные данные в фенотипы с использованием алгоритма фенотипирования. Как только это будет выполнено, мы можем передать эти данные в алгоритм прогнозного моделирования для создания модели.

Теперь мы можем увидеть использование фенотипирования и преимущества. Мы можем удалить шум, мы можем собирать данные из различных источников, так как результатом работы алгоритма фенотипирования является стандартизация данных. Мы также можем упростить данные по мере необходимости.

Практические клинические испытания

Еще одним применением алгоритмов фенотипирования является поддержка практических клинических испытаний.

Клинические испытания можно охарактеризовать как традиционные или прагматические.

Традиционные — обычно измеряют эффективность (результативность), то есть пользу, которую дает лечение в идеальных условиях. Характеристики традиционного клинического исследования включают:

  1. Одно состояние измеряется за раз.
  2. Тестируется один препарат.
  3. Происходит рандомизация, это означает, что некоторые пациенты получают лекарства, а некоторые пациенты получают плацебо. Это важно, чтобы помочь справиться с предвзятостью в клинических исследованиях.
  4. Тщательный отбор однородной популяции с очень строгими критериями включения и исключения.
  5. Тщательно контролируемая среда.

Прагматичный — имеет дело с пациентами из реального мира, у которых часто сосуществует несколько заболеваний. Таковы различные характеристики прагматичного клинического испытания. Они почти противоположны традиционным:

  1. Отбираются пациенты с несколькими заболеваниями
  2. Пациенты потенциально могут принимать несколько препаратов одновременно, поскольку у них могут быть ранее существовавшие заболевания, которые необходимо контролировать на протяжении всего испытания.
  3. Без рандомизации препаратов, назначаемых пациентам, это невозможно.
  4. Любой пациент может быть выбран, существует ограниченная возможность установить строгие критерии пациента.
  5. Среда реального мира

Высококачественные алгоритмы фенотипирования важны для практических испытаний, потому что в качестве меры предосторожности и для получения истинных результатов испытаний нам необходимо знать, какие заболевания у пациента и какие лекарства он принимает в настоящее время, поскольку все они могут быть получены как фенотипы.

Измерение качества здравоохранения

Важно сравнивать показатели качества медицинской помощи в разных больницах. Один из способов добиться этого — заставить больницы отправлять необработанные данные в центральный репозиторий.
Теперь эта центральная служба должна будет агрегировать всю эту необработанную информацию, чтобы рассчитать все эти показатели качества здравоохранения. Это может быть сложно, поскольку каждая больница может представлять свои необработанные данные в любом формате, и центральный репозиторий должен выяснить, как обрабатывать данные каждой больницы по-разному.

Самый масштабируемый способ решения этой проблемы — сначала обработать все данные с помощью фенотипирования, затем получить высококачественную фенотипическую информацию, а затем поделиться ею с центральным хранилищем.

Теперь центральная сторона может агрегировать эту информацию для расчета показателей качества медицинского обслуживания в больницах. Высококачественные и согласованные фенотипические данные имеют решающее значение для обеспечения возможности сравнения показателей качества медицинской помощи в разных больницах.

Методы фенотипирования

Существует две основные категории методов фенотипирования:

  1. Обучение под наблюдением. Мы используем помеченные данные, называемые обучающим набором, для обучения модели тому, как получить желаемый результат. Эта модель является функцией, и мы выполняем аппроксимацию функции, и мы можем применить эту функцию к невидимым данным, чтобы предсказать результат.
  2. Неконтролируемое обучение: когда у нас есть входные данные, и мы хотим определить закономерности в наборах данных, содержащих точки данных, которые не классифицированы и не помечены. Мы используем алгоритмы машинного обучения для анализа и кластеризации данных.

Методы контролируемого обучения фенотипирования

  • Правила, определяемые экспертами. Это наиболее распространенный метод. Пример диабета 2 типа выше на блок-схеме показывает это. Этот метод разрабатывается вручную и часто использует логическую логику/пороговое значение или дерево решений в зависимости от предметной области. Затем логика итеративно улучшается за счет проверки данных EHR.
    - Преимущество этого подхода заключается в том, что он предоставляет алгоритм, интерпретируемый человеком.
    - Еще одно преимущество заключается в том, что этот алгоритм может быть немного пересмотрен, поскольку эксперт может придумать хороший алгоритм для начала< br /> - Недостатком являются усилия и время, затрачиваемые на разработку такого алгоритма, и он требует клинических и информационных знаний. эксперты.
  • Классификация. Мы можем использовать алгоритм контролируемого машинного обучения; классификация для обучения классификатора различению случаев и элементов управления.
    - Недостатки этого подхода заключаются в том, что иногда может быть сложно интерпретировать модель, и модель потребует значительного объема обучающих данных.
    - Еще одним недостатком является то, что данные из разных больниц могут быть не в рабочем формате. Это может привести к тому, что модель изучит особенности, которые уникальны для конкретной больницы.

Неконтролируемое обучение — они обеспечивают подходы к кластеризации данных ЭУЗ в группы пациентов, соответствующие фенотипам или подтипам. Неконтролируемое обучение не требует экспертных меток, что сокращает время, затрачиваемое на просмотр диаграммы вручную. Однако проверка полученных фенотипов может быть сложной задачей, поскольку они не являются истинной истиной о том, что представляют собой эти фенотипы.

Это часто требует очень больших объемов обработки данных, которые не несут затрат на ручную маркировку людей как случаев или контролей. Примеры:

  • Уменьшение размерности: относится к методам уменьшения количества входных переменных в обучающих данных. При работе с многомерными данными часто полезно уменьшить размерность, проецируя данные в подпространство более низкого измерения, которое фиксирует «сущность» данных.
  • Тензорная факторизация. Целью тензорной декомпозиции является получение компактного представления данного тензора. Что такое тензор? Тензор — это многомерный массив с любым количеством строк, столбцов, векторных пространств и т. д., и каждая точка в этом массиве является собственной координатой.

Краткое напоминание: полное резюме курса можно найти на курсе Большие данные для информатики здравоохранения

Надеюсь, вы чему-то научились.

-R