Может ли ИИ читать рентгеновские снимки грудной клетки, как рентгенологи?

Использование враждебных сетей для достижения результатов на человеческом уровне при сегментации органов при рентгенографии грудной клетки

Это вторая часть из серии, состоящей из двух частей. См. Часть 1, чтобы узнать о проблемах и клиническом применении сегментации рентгена грудной клетки (CXR), а также о том, как медицинская визуализация и, в частности, CXR, критически нуждаются в масштабировании искусственного интеллекта.

Резюме из части 1

Задача сегментации рентгеновского снимка грудной клетки (CXR) - распознать поля легких и области сердца в CXR:

Среди множества клинических применений сегментация легких напрямую приводит к ключевому клиническому показателю кардиоторакального соотношения (CTR), который приводит к диагностике кардиомегалии.

Разработка решения

Учитывая проблемы при работе с CXR (см. Часть 1), мы сначала проектируем модель сегментации, основанную на полностью сверточной сети (FCN). Затем мы дополняем состязательную подготовку в рамках структуры Adversarial Network, корректирующей структуру (SCAN), которая обеспечивает производительность на уровне человека.

Давайте углубимся в модели и мыслительные процессы, ведущие к созданию моделей.

Сегментация с помощью полностью сверточной сети (FCN)

Входными данными для модели сегментации является изображение размером H x W x C (высота, ширина, каналы), где C = 3 для значений RGB или C = 1 для изображений в градациях серого, таких как CXR. Затем модель выводит вероятность класса для каждого пикселя H x W x T, где T - количество классов. В нашем случае T = 4 для [левое легкое, правое легкое, сердце, фон] и T = 3, когда метка сегментации сердца недоступна (например, в одном из наборов данных).

Мы проектируем сеть так, чтобы она была полностью сверточной, что заменяет полностью связанные слои сверткой 1x1. (Подробнее см. H ere). Мы начали с VGG-подобной архитектуры, примерно с 16 весовыми слоями и множеством карт функций (или сверточных каналов): 64 карты характеристик в первой свертке, затем удвоение до 512 каналов в последних слоях. Полученная модель имеет большую емкость (›100 миллионов параметров), поэтому она идеально подходит для обучающих данных, но плохо работает с тестовыми данными. Это явный признак того, что наш набор данных слишком мал для поддержки такой большой модели.

Поскольку изображения CXR имеют оттенки серого со стандартизованными структурами, мы уменьшили количество фильтров и обнаружили, что использование 8 карт характеристик для первой свертки вместо 64 в VGG дает значительно улучшенные результаты. Однако мы быстро наталкиваемся на ограничение мощности модели. Чтобы увеличить вместимость модели, идем глубже. В итоге мы приходим к «тонкой» и глубокой сети с 21 слоем веса:

Общее количество параметров в модели составляет 271 тыс., Что в 500 раз меньше, чем у моделей сегментации на основе VGG.

Производительность модели сегментации

Поскольку модель настолько мала (очень мало параметров), мы можем обучить ее с нуля всего на 209 примерах CXR. Мы используем показатели Intersection over Union (IoU) для оценки качества сегментации легких и сердца. (См. Изображение слева для графического определения.) IoU находится в диапазоне от 0 (отсутствие перекрытия между предсказанной маской и истинным значением) до 1 (идеальное совпадение).

Мы используем CXR из набора данных Японского общества радиологических технологий (JSRT) и метки из другого исследования для подготовки набора данных JSRT, состоящего из 247 CXR (209 для обучения и проверки, 38 для оценки). Эта тонкая и высокая сеть сегментации (которую мы называем FCN для полностью сверточной сети) работает довольно хорошо:

Обратите внимание на то, что человеческие возможности несовершенны, они ограничены внутренней субъективной интерпретацией, необходимой для определения границ. Низкий уровень IoU сердца у людей-наблюдателей указывает на то, что границы сердца особенно трудно определить (см. Проблемы в Части 1). Это лишь одно из многих мест, где медицина не является точной наукой.

Режимы отказа FCN

Часто бывает полезно визуализировать, что происходит с низкоэффективными образцами, и провести анализ отказов. Ниже мы применяем нашу модель, обученную на наборе данных JSRT, как к JSRT, так и к другому набору данных (который мы называем Монтгомери):

Кроме того: на изображении выше обратите внимание, что рентгеновские снимки из разных наборов данных выглядят совершенно по-разному из-за таких факторов, как различное оборудование, медицинские операторы и население. Поэтому адаптироваться к новой области набора данных - гораздо более сложная задача. Зная это, наша модель сегментации уже работает на удивление хорошо с набором данных Монтгомери для сегментации легких, даже не имея изображения из этой популяции.

Эти случаи отказа показывают трудности, возникающие из-за разной контрастности изображений CXR в разных образцах. Например, на изображении выше вершина грудной клетки крайнего правого пациента ошибочно принимается за внутреннюю реберную кость, в результате чего маска «истекает кровью» на черный фон, который имеет такую ​​же интенсивность, как и поле легких. Сосудистые структуры вокруг средостения («белое вещество» между двумя легкими) и передних реберных костей (пересекающиеся линии в полях легких) также могут иметь такую ​​же интенсивность и текстуру, что и внешняя граница, что приводит к серьезным ошибкам, как можно видеть. посередине две колонки.

Состязательная сеть с коррекцией структуры (SCAN)

Случаи отказа говорят нам, что модель должна иметь представление о глобальных структурах, чтобы избежать серьезного отказа, как в предыдущих примерах. Например, любой, кто имеет базовую подготовку, знает, что сердце должно быть более или менее эллиптическим, в то время как вершины полей легких должны быть гладкими, а угол между диафрагмой и грудной клеткой должен быть острым. Но как научить этим знаниям модель сегментации FCN?

Хотя математически закодировать знания непросто (например, насколько точно острый угол?), Довольно легко определить, выглядит ли предсказанная сегментация естественной или нет. На жаргоне машинного обучения это называется проблемой двоичной классификации. Это, естественно, приводит к следующей состязательной структуре:

Ключевым дополнением здесь является то, что прогноз сети сегментации оценивается не только по потерям на каждый пиксель (т.е. насколько хорошо предсказанная маска совпадает с наземной истинностью пиксель за пикселем), но и по оценке общего внешнего вида, данной сетью критиков ( то есть насколько хорошо предсказанная маска выглядит достаточно реальной, чтобы обмануть сеть критиков). Проницательные читатели могут заметить, что это очень похоже на Генеративные состязательные сети (GAN). Действительно, эту структуру можно рассматривать как условную GAN, где мы генерируем маски на основе входного CXR-изображения вместо случайного вектора шума в исходной GAN.

В своей работе мы проектируем сеть критиков так, чтобы она в значительной степени отражала архитектуру сети сегментации. Подробности, такие как цели обучения, гиперпараметры модели и настройки эксперимента, можно найти в нашей статье.

Производительность SCAN

Прежде чем мы углубимся в цифры, мы должны пояснить, что сеть критиков в SCAN задействована только на этапе обучения. Во время тестирования мы используем только сеть сегментации, архитектура которой идентична FCN. Другими словами, мы надеемся, что с добавлением сети критиков мы сможем каким-то образом лучше обучить ту же сеть сегментации, используя рекомендации сети критиков, чтобы стимулировать ту же сеть сегментации к более «естественным» прогнозам. Имея это в виду, мы повторяем оценку набора данных JSRT:

Обратите внимание, что без каких-либо изменений в архитектуре FCN, SCAN улучшает FCN на 1,8% абсолютно до производительности человеческого уровня, примерно на 94,6% IoU легких! Давайте вернемся к четырем тяжелым пациентам в наших неудачных случаях:

Как видите, все 4 случая «исправлены» вполне удовлетворительно. Кроме того, обратите внимание, что SCAN дает более реалистичный острый угол во внешнем нижнем углу каждого поля легких (реберно-диафрагмальный угол) по сравнению с SCAN. Углы обычно не влияют на производительность пикселей, но могут быть важны в последующих диагностических задачах (например, обнаружение притупления реберно-диафрагмального угла).

В клинических условиях недостаточно просто иметь хорошие средние показатели, но важно избегать вопиющих ошибок в прогнозировании, поскольку они могут повлиять на доверие врачей к ИИ. Используя структуру состязательного обучения, SCAN улучшает попиксельные метрики, а также «общий вид» прогноза. Оба эти фактора важны в клинических условиях.

Сравнение с предшествующим уровнем техники сегментации CXR

Приведенная выше оценочная таблица показывает, что наш метод с большим отрывом превосходит предшествующий уровень техники для сегментации поля легких CXR (метод «на основе регистрации»). Поскольку наша работа является первым решением глубокого обучения для сегментации CXR, полезно иметь представление о том, насколько сложными могут быть решения без глубокого обучения:

Подход в Candemir et. al., TMI (2014) включает в себя серию экстракций просеивающих признаков, трансформацию формы, поиск пациентов с профилями формы легких, аналогичными потенциальным сегментам рентгенографического исследования, вырезание графика и т. д. для получения окончательной сегментации. Для каждого этапа требуются различные параметры настройки, и поскольку прогноз основан на деформации пациентов с аналогичными профилями легких, когда легкое нового пациента значительно отличается от существующих данных обучения, производительность страдает, как мы увидим позже.

Комплексный трубопровод в Candemir et. al., TMI (2014) резко контрастирует с простотой нейронных сетей, где сеть изучает как функции, так и формы сама по себе. Прошли те времена, когда функции ручной работы, такие как SIFT, и тонкие манипуляции с формами в несколько этапов прошли.

Полезно провести качественное сравнение, чтобы понять, чем SCAN превосходит Candemir et. др., TMI (2014) :

Для двух левых столбцов SCAN создает более реалистичные контуры вокруг острых реберно-диафрагмальных углов. Это может быть проблемой в моделях на основе регистрации, где обнаружение и сопоставление реберно-диафрагмальной точки затруднено. Для двух правых столбцов (Candemir et. Al., TMI (2014)) проблемы из-за несоответствия между профилями легких испытуемого пациента (из набора данных Монтгомери) и существующими профилями легких в наборе данных JSRT, что приводит к неестественным формам маски.

Последние мысли

Было много шумихи вокруг точности диагностики ИИ на рентгеновских снимках. Однако диагностика на основе искусственного интеллекта с помощью рентгенологического исследования может быть чревата подозрением со стороны радиологов. Хотя есть впечатляющие результаты, часто легче проникнуть в больницы с небольшими улучшениями, такими как расчет кардиоторакального коэффициента (CTR), который можно получить на основе сегментации легких (см. Часть 1). Мы смогли быстро провести испытания с нашим движком CTR. Автоматический расчет CTR прост для интерпретации и, как правило, очень точен. Мы обнаружили, что иногда важнее заручиться доверием врачей и экспертов в предметной области, хорошо поддерживая существующий рабочий процесс с помощью надежного ИИ, вместо того, чтобы менять свой рабочий процесс с помощью менее зрелых решений ИИ. Я надеюсь, что это тематическое исследование может послужить полезным примером для разработки других решений искусственного интеллекта в здравоохранении.

Об авторе: Дэвид Дай - старший инженер по машинному обучению в Apple, советник Wayfinder AI и бывший старший технический директор Petuum. Он имеет докторскую степень по машинному обучению в Университете Карнеги-Меллона и был назван Питтсбургом 30 до 30 лет. @ Daiwei89 | Средний | [email protected].

использованная литература