Глубокое обучение применяется в радиологии для прогнозирования заболеваний. Наборы радиологических данных относительно малы для глубокого обучения, поэтому исследователи обычно используют трансферное обучение и уменьшенные изображения. Мои коллеги и я недавно продвигали наше исследование прогнозирования перелома шейки бедра с помощью трансферного обучения и обнаружили, что прогностическая эффективность алгоритма зависит от путаницы переменных пациента и больничного процесса. Здесь я резюмирую, как клинические рассуждения в оказании медицинской помощи впечатляют смешанной структурой в медицинские данные, и подход, который мы использовали, чтобы показать, как глубокое обучение может аналогичным образом использовать переменные пациента и медицинского процесса, видимые на рентгенограммах, для прогнозирования заболевания.

Клиническое обоснование и разнообразие пациентов отпечатывают закономерности в медицинских данных

Клинические рассуждения включают синтез бесчисленных источников данных. Эпидемиологические исследования показали, что у пациентов с большей вероятностью перелом шейки бедра, если они пожилого возраста, женщины, имеют меньшую массу тела, остеопороз, принимают стероиды и т. д. Переломы не являются детерминированными или спонтанными — пациенты получают переломы после травмы (например, падения). , жестокое обращение или дорожно-транспортное происшествие). Когда врачи рассматривают клинический контекст пациента, они лучше интерпретируют образы (Nature Medicine глубокий разум, мы). Клинический диагноз включает в себя больше, чем рентгенограмма.

Врачи назначают тесты и визуализирующие исследования, основываясь на вероятности различных заболеваний с учетом клинической картины пациента и контекста. Американский колледж радиологии публикует рекомендации о том, какие рентгенографические исследования целесообразны в различных клинических контекстах. Например, пациенты среднего или пожилого возраста с клиническим подозрением на перелом шейки бедра должны пройти повторную МРТ, даже если первоначальная рентгенограмма выглядит нормальной. Различия в диагностических исследованиях могут привести к структурированию медицинских данных, которые изучаются алгоритмами статистического обучения.

Региональное разнообразие пациентов и различия в состоянии здоровья являются дополнительными факторами, определяющими оказание медицинской помощи. Исторически сложилось так, что самыми сильными предикторами ведения пациентов являются географический регион и ресурсы больницы (тонзиллэктомия, больничные ресурсы, хирургические процедуры). Я изучал медицину и обучал модели глубокого обучения в Нью-Йорке, где популяция пациентов удивительно разнообразна. Различия в состоянии здоровья ограничивают клиницистов и находят отклик во всех медицинских данных. Глубокое обучение, обученное в социальных онлайн-приложениях, узнало фанатизм человечества. И мы ранее сообщали, что, когда распространенность заболевания различается в разных больничных центрах, модели глубокого обучения могут быть введены в заблуждение из-за смешанных сигналов, связанных с распространенностью заболевания, и дать сбой при развертывании в новых больничных системах. В исследованиях электронных медицинских карт и генетики было показано, что переменные обработки образцов могут генерировать более громкие сигналы, чем биология, и здесь мы проверили аналогичную гипотезу с помощью радиологии глубокого обучения.

«Никто не знал, что здравоохранение может быть таким сложным», — Дональд Трамп.

Интерпретируемость модели

Глубокое обучение часто критикуют как «черный ящик». Я утверждаю, что большинство замечательных вещей в современности фактически являются черными ящиками. Чтобы просыпаться по утрам, мне нужны физические черные ящики: мой будильник и кофеварка. Я не знаю, как они работают внутри, я просто предоставляю свои входные предпочтения и получаю пользу от вывода. Некоторые люди смутно беспокоятся о том, чтобы доверять непостижимым моделям, и предъявляют к этим моделям непропорциональные стандарты. В этом исследовании мы предполагаем, что, когда модели не поддаются интерпретации И используют смешанные переменные, клиницисты имеют ограниченную пользу от компьютерных прогнозов диагностики.

Исследовательский подход

После обучения простой модели перелома шейки бедра я был удивлен высокой производительностью модели, и у меня возникли подозрения по поводу того, как она работает. Ранее мы использовали методы визуализации, чтобы показать, что модели, предсказывающие пневмонию, учитывали небиологический сигнал. В нашем последнем архивном исследовании мы собираем исчерпывающий набор данных клинического контекста, обучаем мультимодальные модели и проводим статистические эксперименты, чтобы проанализировать, какую информацию модели используют для прогнозирования заболевания.

Сначала мы оцениваем, может ли глубокое обучение реально выиграть от распознавания пациентов и переменных получения изображений, связанных с переломом шейки бедра. Мы обнаружили, что простые модели глубокого обучения могут предсказать перелом шейки бедра, все 5 переменных пациента и все 14 проверенных переменных больничного процесса. Кроме того, каждая переменная была в значительной степени связана с переломом (либо во всей популяции, либо только в субпопуляциях, сканированных с помощью определенного устройства). Затем мы утверждаем, что клинический контекст полезен, показывая, что мультимодальные модели превосходят модели, основанные только на изображениях. Эти результаты предполагают, что глубокое обучение может принести пользу за счет использования переменных, не связанных с болезнью, но не доказывают, что эти косвенные отношения являются механизмом прогнозирования переломов.

Мы распутываем, как предсказание модели перелома связано с ассоциациями перелом-ковариат, создавая несколько тестовых наборов с различными статистическими свойствами. Поскольку глубокое обучение может извлекать ковариаты непосредственно из пикселей рентгеновского снимка, мы не можем разделить эти переменные на отдельных рентгенограммах. Вместо этого мы используем подвыборку случай-контроль, чтобы статистически изменить связи между переломом шейки бедра и соответствующими переменными в популяционной шкале. Мы обучаем модель на 70% данных и оцениваем производительность модели на наборах тестов, состоящих из 30% данных или меньших подмножеств случай-контроль. Изучая редкие состояния, такие как перелом бедра, предыдущие группы случайным образом подбирали количество нормальных случаев. Мы добавляем еще один элемент к этой практике путем неслучайной подвыборки нормальных случаев, чтобы они были более похожи на случаи переломов с точки зрения пациента и переменных получения изображения (подвыборка, соответствующая рентгенограмме).

Результаты

Отношение шансов измеряет связь между переломом шейки бедра и каждым пациентом и переменной медицинского процесса (подрисунок A). В полном наборе данных (поперечное сечение, золото) мы находим значимые связи между большинством ковариатов и переломом шейки бедра. Когда мы случайным образом выбираем одну нормальную рентгенограмму для каждого перелома (случай-контроль, нет соответствия, серый цвет), эти ассоциации переломов остаются прежними. Мы применяем все более комплексные режимы сопоставления рентгенограмм (демографические данные выделены оранжевым цветом, демографические данные и симптомы — розовым, демографические данные, симптомы и больничные процессы — фиолетовым). По мере того, как мы сопоставляем больше вмешивающихся факторов, мы устраняем больше ассоциаций между вмешивающимися факторами и переломом.

Модель глубокого обучения может предсказать перелом шейки бедра при тестировании на всем тестовом наборе, на тестовом наборе с элементами управления, случайно выбранными подвыборками, или на наборе тестов с элементами управления, соответствующими характеристикам пациентов (подрисунок B). Но когда контрольные наборы тестов были разделены на подвыборки с пациентом и полученным изображением, рентгенограммы с переломами и без переломов имели одинаковое распределение ковариат, и модель изображения больше не могла предсказать, какие рентгенограммы содержат переломы. Это говорит о том, что глубокое обучение предсказывало перелом только из-за связи между переломом, пациентом и переменными больничного процесса (т. е. не путем непосредственного наблюдения за переломом).

Обсуждение

  • Модели глубокого обучения могут по своей природе использовать переменные пациента и получения изображений из целых рентгенограмм.
  • прямое включение этих переменных в качестве независимых переменных улучшает производительность модели
  • Переформулируя стандартный дизайн поперечного исследования как исследование случай-контроль, мы обнаруживаем, что способность прогнозировать перелом полностью опосредована ковариантами, не связанными с болезнью.

В этом исследовании не рассматривались другие диагнозы, методы рентгенографии или стратегии моделирования. Во многих недавних работах по радиологии глубокого обучения используется трансферное обучение для преодоления ограничений размера выборки. Рентгенограммы произвольно уменьшаются и обрезаются до размера изображений в крупномасштабных эталонных наборах данных (обычно в 5–10 раз по каждой оси). Мы проводим вторичный анализ наилучшей представленной модели трещины, в которой используется сегментация, чтобы избежать масштабирования изображений (среди других элегантных стратегий предварительной обработки и моделирования), и устанавливаем, что не все модели будут зависеть от искажающих факторов. Тем не менее, текущий статус-кво в радиологии глубокого обучения может быть особенно восприимчив к эксплуатации вмешивающихся факторов.

Проблема в том, что глубокое обучение может использовать сигнал, не относящийся к болезни, для прогнозирования заболевания?

По-разному.

Если алгоритмы интерпретируют медицинские изображения автономно, то повышение производительности за счет клинических рассуждений, скорее всего, будет полезным.

Но использование вмешивающихся переменных может подорвать алгоритм, предназначенный для улучшения синтеза клинического случая клиницистом. Чтобы имитировать врача, который не уверен, как модель глубокого обучения кодирует переменные пациента и здравоохранения, мы используем Наивный Байес, чтобы объединить прогнозы модели только для изображений с клиническим контекстом. Вторичное комбинирование прогнозов, основанных только на изображении, и клинического контекста уступает мультимодальным моделям, которые одновременно обучаются на изображении и клиническом контексте (эффективно кодируя взаимозависимости изображения и ковариации). Клинические рассуждения человека с неинтерпретируемым глубоким обучением могут быть ограничены двойным подсчетом данных от пациента и переменных процесса здравоохранения.

Глубокое обучение более эффективно, чем применимо

Модели глубокого обучения могут изучать бесчисленные характеристики заболеваний, пациентов и получения изображений из рентгенографических изображений. Глубокое обучение обычно обучается на ретроспективно собранных данных, а не на проспективных контролируемых испытаниях, и оно может использовать небиологические модели данных для косвенного прогнозирования заболевания. Это встроенное клиническое обоснование может усложнить компьютерную диагностику, если клиницист не знает, как предсказание алгоритма перекрывается с другими данными, которые он рассматривает.

Одна рентгенограмма представляет собой миопический взгляд на пациента. Забота о пациенте не определяется одной рентгенограммой, и глубокое обучение — не единственный развивающийся компонент современности. Будущие исследования должны рассмотреть вопрос о разработке мультимодальных моделей, чтобы оставаться актуальными. Биотехнологии и мобильное здравоохранение создают новомодные потоки данных, которые могут перевести медицину с реактивной диагностики на активное оздоровление. Глубокое изучение набора доступных данных может создавать более точные модели и улучшать широкое развертывание и интеграцию доказательств.

Это исследование стало последней главой моей диссертации Мультимодальное глубокое обучение для улучшения практики радиологии. Ознакомьтесь с исследованиями другие мои исследования.