Автор: Саймон Хитфилд, Capita

Машинное обучение обычно называют очень важной технологией будущего информатики в здравоохранении. Например, метод описан в статье Kings Fund Цифровая революция: восемь технологий, которые изменят здравоохранение и уход». Однако очень немногие цитаты раскрывают, что на самом деле представляет собой технология, и подразумевают, что компьютеры могут автоматически выявлять значимые закономерности в наборах данных.

Это вводит в заблуждение, и (как это обычно бывает в новых технологиях) здесь нет никакой магии. Методы основаны на хорошо зарекомендовавших себя методах обработки данных и статистических методах.

В этой заметке делается попытка предоставить очень краткое руководство по машинному обучению и связанному с ним интеллектуальному анализу данных, чтобы наши беседы могли быть более информативными.

Проблема

Числа или данные — это упрощенное представление того, что мы изучаем, аналитика пытается обнаружить информацию, скрытую в данных, чтобы мы могли использовать ее для понимания ситуации и помощи в принятии решений. Для этого он пытается идентифицировать структуры и шаблоны, которые указывают на отношения между элементами данных. Например, спрашивается, может ли изменение одной (или набора) точек данных предсказать поддающееся количественной оценке изменение другой? В области здравоохранения мы можем спросить: «Какие факторы могут повлиять на продолжительность пребывания пациента в больнице»?

В общем, процесс такой:

  • Сначала аналитик должен найти элементы данных, которые связаны, например. изменение одного приводит к изменению другого (соответствие).
  • Затем эту связь необходимо проверить, чтобы показать, что она реальна, что изменение одного элемента данных вызывает изменение другого (причинно-следственная связь). Известные примеры могут проиллюстрировать, где было обнаружено соответствие, но причинно-следственная связь сомнительна (например, количество аистов и уровень рождаемости в Дании).

Статистические методы могут найти соответствие и показать, что связь, вероятно, будет надежной (статистически значимой). Он не может показать причинно-следственную связь, для этого нужны люди, которые понимают ситуацию и могут объяснить связь.

Как правило, подходы машинного обучения пытаются решить проблемы, которые можно разделить на две категории:

  • Прогнозирующие: они оценивают требуемое значение на основе набора известных значений, например, прогнозируют количество дней, которые будут проведены в больнице, на основе условий, представленных пациентом.
  • Классификация: примените метку (или отсортируйте по группам), например, пометьте пациента как «хрупкого».

Машинное обучение

Машинное обучение — это подход, который помогает аналитикам разрабатывать модели и алгоритмы, способные находить закономерности и применять их на практике. Например, аналитик изучит факторы, влияющие на продолжительность пребывания в одной конкретной больнице (используя местные данные), построит модель, учитывающую обучение прогнозированию продолжительности пребывания на основе известных факторов, и применит полученную модель во многих других больницах. Итак, в целом процесс таков:

(1) Применять аналитические/статистические навыки, чтобы понять ситуацию и взаимосвязь данных, которые могут на нее повлиять.

(2) Построить модель на основе выборочного набора данных и понимания из (1).

(3) Применить модель ко многим наборам данных.

Короче говоря, машинное обучение строит обобщенные модели (включая алгоритмы), которые можно применять к новым наборам данных. Создание моделей зависит от объединения опыта в области обработки информации, аналитики, статистики и связанной с ними области бизнеса.

Типичными примерами алгоритмов машинного обучения являются:

  • Алгоритм ранжирования страниц, используемый Google.
  • Выявление и фильтрация нежелательной почты.
  • Совместная фильтрация, когда такие организации, как Amazon и Netflix, используют прошлые модели покупок (или использования), чтобы рекомендовать клиентам новые товары.
  • Распознавание лиц, при котором множество разных изображений правильно идентифицируются как одно и то же лицо (и исключаются разные лица).

Отличным примером в области здравоохранения являются модели риска, в которых данные из истории болезни пациента (возраст, пол, условия и использование услуг) используются для расчета риска госпитализации в следующем году. Исследовательская организация более 40 лет работает над созданием и уточнением моделей риска.

Так где же в этом процессе «машинное обучение», поскольку большую часть работы, похоже, выполняет аналитик? Это приложение модели к новым наборам данных. Модели позволяют фиксировать знания аналитика в компьютерном программном обеспечении и широко применять.

Модели делают управляемые данными прогнозы или решения, а не следуют строго статическим инструкциям программы. Модели должны быть спроектированы так, чтобы справляться с применением к различным (если они похожи) данным. Таким образом, он «обучается», потому что применяет правила для выявления потенциально разных закономерностей в данных из разных источников, например. одни и те же модели могут идентифицировать очень разные когорты людей в разных местах.

Сбор данных

Интеллектуальный анализ данных предназначен для работы с очень большими объемами данных, когда аналитикам нецелесообразно сортировать огромные наборы данных для выявления структур и отношений; это просто заняло бы слишком много времени. Эти наборы данных очень велики, например, данные о столкновениях с адронного коллайдера (ежегодно производится 30 петабайт) и информация о супермаркетах (хранилища данных Wal-Mart теперь содержат около 2,5 петабайт информации).

Алгоритмы интеллектуального анализа данных могут автоматически идентифицировать структуры и шаблоны (например, использовать статистические методы, такие как регрессия, для выявления корреляций между элементами данных, или новый метод использует графовую аналитику для обнаружения взаимосвязей «многие ко многим»). Таким образом, алгоритмы могут помочь аналитикам понять данные и найти взаимосвязи (например, для интересующего элемента данных алгоритм предложит набор элементов, которые показывают соответствие). Обратите внимание, что это помогает с соответствием, но гораздо меньше с причинно-следственной связью, так что это помощь, а не решение.

Примеры интеллектуального анализа данных включают:

  • Розничные продавцы сегментируют клиентов на группы, чтобы ориентировать их на маркетинг и рекламные акции.
  • Службы кредитных карт анализируют модели транзакций для выявления мошенничества.

Многие поставщики программного обеспечения включают модули машинного обучения и интеллектуального анализа данных в решения для баз данных, например Microsoft Azure Machine Learning (Azure ML) — это облачная служба, которая помогает людям выполнять процесс машинного обучения, и Oracle Data Mining (ODM), компонент Oracle Data Mining (ODM). Опция Advanced Analytics позволяет аналитикам создавать и применять прогностические модели в базе данных Oracle. Решения с открытым исходным кодом включают язык статистического программирования «R» (используемый в MS Azure) и такие пакеты, как RapidMiner.

Приложения в здравоохранении

Машинное обучение определенно полезно для здоровья, однако оно не ново и не волшебно. Это помогает улучшить и расширить уже используемые методы и предоставляет новые технологии и инструменты, которые можно применять.

В настоящее время преимущества интеллектуального анализа данных менее очевидны. Широко используемые наборы данных NHS (например, закодированные выписки из систем врачей общей практики и больниц), хотя и велики, не соответствуют масштабам, требующим методов интеллектуального анализа данных, и часто именно глубокое понимание, возникающее в результате подробного анализа, помогает получить достоверные и полезные результаты.

Однако по мере развертывания информационных систем (например, EPR) увеличиваются объемы данных в области здравоохранения. Кроме того, если включены подробные данные специалистов (например, изображения и секвенирование генов), объемы резко возрастают (по оценкам, Kaiser Permanente содержит от 26,5 петабайт до 44 петабайт данных о пациентах, включая изображения и аннотации). Для этих больших наборов данных потребуется интеллектуальный анализ данных.

Медицинская аналитика должна изучать использование методов и инструментов, появившихся в результате последних разработок в области машинного обучения и интеллектуального анализа данных. В настоящее время почти вся аналитика в области здравоохранения ориентирована на прошлое, обобщая прошлые результаты и финансы. Появляющиеся операционные модели NHS, включая клинические (например, выявление случаев для интегрированной помощи), подушевые схемы оплаты и схемы оплаты на основе результатов, потребуют перспективных прогностических методов.

— — — — — — — — —

Узнайте больше об услугах и решениях для сектора здравоохранения Capita на нашем сайте.

Саймон Хитфилд — управляющий консультант Capita Health Partners. Чтобы обсудить ваши проблемы в области машинного обучения и интеллектуального анализа данных, с ним можно связаться по адресу [email protected] или по телефону 020 7709 4500.