Каждый год врачи проводят более 3,6 миллиарда диагностических рентгеновских исследований. В настоящее время обученные радиологи интерпретируют эти миллиарды снимков, но существует значительный интерес к разработке автоматизированных систем интерпретации рентгеновских лучей, чтобы помочь радиологам и повысить квалификацию радиологов в недостаточно обслуживаемых областях. В этом посте будут описаны некоторые недавние наборы данных и методы, применяемые к проблеме интерпретации рентгеновского снимка грудной клетки. (В качестве бонуса в последнем разделе также обсуждается высоконаучная доза облучения, эквивалентная банановому эквиваленту.)

Цель

Целью автоматической интерпретации рентгеновского снимка грудной клетки является выявление и локализация аномальных явлений на рентгеновском снимке грудной клетки, таких как пневмония, опухоли и грыжи. В будущем автоматизированные системы, вероятно, упростят рабочий процесс в радиологии, предоставляя рентгенологам первоначальную интерпретацию рентгеновских снимков и устанавливая приоритеты, какие сканы следует читать в первую очередь (например, потому что они показывают вызывающую беспокойство патологию).

Вот несколько причин, по которым интерпретация рентгеновского снимка грудной клетки является хорошей медицинской проблемой для визуализации:

  • Ежегодно собираются миллиарды рентгеновских снимков грудной клетки, поэтому возможно создание больших наборов данных. Кроме того, любой высокопроизводительный автоматизированный метод будет практически полезен для многих систем здравоохранения.
  • В качестве дополнительного бонуса рентгеновские снимки грудной клетки имеют двухмерный формат, что упрощает обработку вычислений по сравнению с трехмерными радиологическими исследованиями, такими как КТ или МРТ.

Как работает автоматизированная рентгенография грудной клетки

Большинство автоматизированных моделей интерпретации рентгеновского снимка грудной клетки, описанных в литературе, представляют собой сверточные нейронные сети (CNN). Подробно CNN описаны в этом посте.

Короче говоря, CNN обрабатывают изображения иерархически. Во-первых, CNN идентифицирует простые характеристики изображения, такие как края. Затем CNN объединяет эти простые характеристики для обнаружения более сложных характеристик, таких как затуманенные участки легких, указывающие на пневмонию.

Формат набора данных рентгеновского снимка грудной клетки

Данные рентгеновского снимка грудной клетки необходимы для обучения автоматизированных моделей интерпретации рентгеновского снимка грудной клетки. Наборы данных рентгена грудной клетки состоят из изображений, соединенных с этикетками. Один пример из набора данных рентгеновского снимка грудной клетки выглядит так:

(рентген грудной клетки в приведенном выше примере взят отсюда)

В этом примере у нас есть рентген грудной клетки, показывающий пневмонию и абсцесс, и двоичный вектор метки, указывающий, что пневмония = 1 (присутствует), абсцесс = 1 (присутствует), а все другие представляющие интерес результаты = 0 (отсутствуют). . Каждый пример во всем наборе данных отформатирован одинаково: изображение в паре с двоичным вектором меток для одного и того же фиксированного набора меток в том же порядке.

Три важных момента - это размер набора данных, количество доступных этикеток и качество доступных этикеток:

  • Размер набора данных: чем больше, тем лучше! Нам нужно как можно больше изображений с пометками.
  • Количество этикеток: чем больше, тем лучше! Поскольку модели обучаются с использованием меток, единственные болезни, которые модель может научиться обнаруживать, - это болезни, обозначенные на этикетках. Если есть три представляющих интерес заболевания, то каждое изображение в наборе данных должно быть помечено «да или нет» для каждой из этих трех представляющих интерес болезней. Если определенное заболевание не включено - например, если исключена «пневмония», то никакая контролируемая модель, обученная на наборе данных, не сможет научиться обнаруживать пневмонию.
  • Качество этикеток. Мы хотим, чтобы надписи были максимально точными.

Откуда берутся ярлыки?

Часто метки (какие заболевания присутствуют на каком изображении) получают с использованием подходов искусственного интеллекта, применяемых к заметкам с произвольным текстом, которые были написаны радиологом в прошлом для описания изображения. Запись может выглядеть примерно так: «В правой верхней доле пневмония. Сердце увеличено. Нет пневмоторакса, узелков или новообразований ».

Вынимать ярлыки из заметки полезно, потому что это означает, что человеку не нужно записывать все ярлыки вручную. Однако возникает проблема, если автоматизированный метод получения этикеток является неточным (подробнее об этом ниже).

Реальные наборы и модели данных рентгеновского снимка грудной клетки!

Вот несколько примеров общедоступных наборов данных рентгеновского снимка грудной клетки и несколько сопутствующих моделей. В некоторых статьях публикуются как новый набор данных рентгеновского снимка грудной клетки, так и новая модель. Другие статьи публикуют только новую модель с использованием существующего набора данных.

Набор данных: ChestX-ray8 (5 мая 2017 г.)

Набор данных ChestX-ray8 описан в этой статье. Он был создан Клиническим центром Национального института здоровья (NIH) и включает в себя 108 948 рентгеновских снимков грудной клетки 32 717 уникальных пациентов.

На каждом рентгеновском снимке грудной клетки есть восемь меток заболеваний: ателектаз (коллапс легочной ткани), кардиомегалия (увеличенное сердце), выпот (избыток жидкости), инфильтрация, масса, узелок, пневмония и пневмоторакс (воздух в грудной клетке). контролируемые модели, обученные на этом наборе данных, могут быть обучены обнаружению этих 8 заболеваний.

Набор данных: ChestX-ray14. Модель: CheXNet (14 ноября 2017 г.).

ChestX-ray14 построен на основе ChestX-ray8, но он содержит 14 меток болезней вместо 8. ChestX-ray14 добавляет следующие метки болезней поверх меток ChestXray-8: консолидация (область легочной ткани, заполненная жидкость вместо воздуха), грыжа, отек, эмфизема (например, от курения), фиброз (уплотнение / рубцевание легких) и утолщение плевры (заболевание легких, при котором рубцы делают слизистую оболочку легких более толстой).

CheXNet - это модель для автоматизированной интерпретации рентгеновского снимка грудной клетки, обученная с использованием набора данных ChestX-ray14. Модель представляет собой 121-слойную сверточную нейронную сеть, которая также может создавать тепловые карты, выделяя области рентгеновского снимка грудной клетки, которые были важны для окончательного решения модели.

Вот карикатура на желтую «тепловую карту», ​​на которой выделяется область пневмонии / абсцесса из ранее показанного рентгеновского снимка грудной клетки:

Авторы утверждают, что модель CheXNet обеспечивает производительность на уровне радиолога. Однако не все согласны с этим утверждением. Радиолог Люк Окден-Райнер опубликовал интересную запись в блоге, в которой он описывает несколько проблем с набором данных ChestX-ray14, включая проблемы с точностью маркировки и тем, отражают ли метки то, что на самом деле находится на изображениях. Общий философский момент заключается в том, что, поскольку глубокое обучение является гибким и мощным, модель глубокого обучения способна выучить неправильные диагнозы для рентгеновских снимков грудной клетки, если вы тренируете модель, используя неправильные диагностические метки (мусор на входе, мусор на выходе). Чтобы разработать системы машинного обучения, применимые в реальном мире, нам необходимо убедиться, что метки, которые мы используем для обучения моделей, действительно отражают, какие заболевания присутствуют на соответствующих рентгеновских снимках грудной клетки.

Набор данных: CheXpert (21 января 2019 г.)

CheXpert и MIMIC-CXR - новейшие и крупнейшие наборы данных рентгеновского снимка грудной клетки, выпущенные в январе этого года.

CheXpert содержит 224 316 снимков от 65 240 пациентов, что примерно вдвое больше снимков и вдвое больше пациентов, чем ChestX-ray8. Он включает в себя эти 14 этикеток (которые не совсем такие же, как 14 этикеток ChestX-ray14):

  • кардиомегалия
  • «Увеличенная кардиомегалия»: честно говоря, я не уверен, что это такое, поскольку кардиомегалия по определению является увеличенным сердцем, поэтому «увеличенная кардиомегалия» просто означает «увеличенное увеличенное сердце». Возможно, они имеют в виду «увеличенный силуэт сердца», который может быть вызван увеличением сердца ИЛИ другими проблемами, такими как жидкость в мешочке, окружающем сердце.
  • поражение легких: это обширная категория, поскольку «поражение» может быть вызвано многими болезненными процессами.
  • помутнение легких: это тоже широкая категория - в основном «белое пятно в легких»
  • отек
  • укрепление
  • пневмония
  • ателектаз
  • пневмоторакс
  • плевральный выпот
  • «Другая плевральная полость»: похоже, это универсальная категория для других проблем с мешками вокруг легких.
  • перелом: например, перелом ребра
  • вспомогательные устройства
  • нет находки

Доктор Райнер также имеет свое мнение о наборе данных CheXpert. Tldr: CheXpert - лучший набор данных, чем ChestXray14, потому что он больше и включает более качественные метки.

Статья CheXpert описывает результаты модели сверточной нейронной сети, обученной на наборе данных CheXpert. Подобно модели CheXNet, описанной в предыдущем разделе, модель CheXpert также создает тепловые карты, выделяя важные области изображений.

Набор данных: MIMIC-CXR (21 января 2019 г.)

И последнее, но не менее важное… MIMIC-CXR был выпущен в этом году точно в тот же день, что и набор данных CheXpert (совпадение? Думаю, нет!). Набор данных доступен на веб-странице базы данных MIMIC-CXR.

MIMIC-CXR использует ту же систему маркировки, что и CheXpert, поэтому он включает те же 14 этикеток CheXpert, перечисленных выше, на всех своих изображениях. MIMIC-CXR включает 371 920 рентгеновских снимков грудной клетки из 227 943 визуализационных исследований.

Выводы

С 2017 года более 700000 маркированных рентгеновских снимков грудной клетки были опубликованы для ускорения разработки моделей машинного обучения для автоматической интерпретации рентгеновских снимков грудной клетки. Это захватывающее время для работы в области автоматической интерпретации медицинских изображений!

Об избранном изображении

Что происходит с банановым смайликом на изображении? (Источник изображения банана). Сегодня я узнал о эквивалентной дозе банана, которая является неофициальным показателем воздействия ионизирующего излучения, основанным на дозе радиации от употребления одного банана. Бананы содержат много калия, в том числе радиоактивный изотоп калий-40. Но не бойтесь: съесть один банан - это мизерная доза радиации, гораздо меньшая, чем количество радиации, которому вы подвергаетесь, просто живя на Земле в течение одного дня.

Вот забавная диаграмма доз облучения с https://xkcd.com/radiation/, в которой съесть один банан в виде двух синих квадратов в правом верхнем углу:

Первоначально опубликовано на http://glassboxmedicine.com 11 мая 2019 г.