Авторы

Бхавниш Шарма (1), Блейк Лобато (2), Срини Рао (3), Мрадул К. Дага (4), Бруно Джанота (5)

  1. Инженер по машинному обучению, исследователь глубокого обучения, Vasuda, LLC, Андовер, Массачусетс, США.
  2. Аэрокосмический инженер и специалист по данным, Asca, Inc. (работает над этапами I и II проекта NASA JPL SBIR), Редмонд-Бич, Калифорния, США.
  3. Генеральный директор Datycs, Вобурн, Массачусетс, США
  4. Директор, профессор медицины, Делийский университет, Медицинский колледж Маулана Азад, Дели, Индия
  5. Ведущий специалист по данным и инженер по машинному обучению, Lockheed Martin, Мурстаун, Нью-Джерси, США

Для переписки: Бхавниш Шарма, 135 North Street, Андовер, MA-01810, США,

Тел.: +1 718 501 7515, Электронная почта: [email protected]

Сводка

Интерстициальные заболевания легких (ИЗЛ), также называемые диффузными паренхиматозными заболеваниями легких, представляют собой гетерогенную группу из более чем 200 хронических заболеваний легких, которые классифицируются вместе из-за схожих клинических, рентгенологических, физиологических или патологических проявлений. Перекрывающиеся рентгенологические признаки ИЗЛ затрудняют диагностику, и для подтверждения диагноза может потребоваться инвазивная биопсия легкого.

В этом пилотном исследовании мы использовали пользовательскую сверточную нейронную сеть (CNN), чтобы различать КТ-изображения двух наиболее распространенных форм ИЗЛ: легочного фиброза и неспецифической интерстициальной пневмонии (NSIP), которые имеют часто перекрывающиеся особенности КТ-сканирования и были ранее диагностирован вручную у 30 больных.

CNN была обучена с использованием Tensorflow 2.5, библиотеки Python 3.9 с использованием увеличения изображения в реальном времени на графическом процессоре Nvidia P-100 на 306 изображениях. Точность проверки 100% была достигнута на 37 изображениях в наборе данных проверки. Точность теста 100% была получена при тестировании обученной модели на тестовом наборе данных из 41 изображения. Мы развернули модель как веб-приложение и успешно получили прогнозы на тестовых изображениях, каждое из которых принадлежало к одной из 3 категорий — легочный фиброз, NSIP и здоровое состояние.

Исследование предполагает, что модели глубокого обучения могут быть полезны клиницистам в радиологической классификации легочного фиброза и NSIP без необходимости дополнительного тестирования, включая инвазивную биопсию легкого.

На следующем этапе этого проекта мы планируем еще больше расширить исследование, собрав больший набор данных и проведя эксперимент, включающий больше классов ИЗЛ, таких как гиперчувствительный пневмонит, ДИП, КС и т. д.

Ключевые слова: ILD; Компьютерная томография; глубокое обучение; машинное обучение; Си-Эн-Эн; сверточная нейронная сеть, фиброз легких, неспецифическая интерстициальная пневмония, ИЛФ, НСИП

Подробнее

Введение

Интерстициальные заболевания легких (ИЗЛ), также называемые диффузными паренхиматозными заболеваниями легких, представляют собой гетерогенную группу из более чем 200 хронических заболеваний легких, которые классифицируются вместе из-за схожих клинических, рентгенологических, физиологических или патологических проявлений. Расчетная годовая распространенность ИЗЛ составляет 97,9 случая на 100 000 населения, а ежегодная заболеваемость составляет 26–32 случая на 100 000 человек в год (1). На основании компьютерной томографии легких в целом ИЗЛ можно классифицировать как (а) преимущественно фиброзную картину (например, легочный фиброз, который может быть идиопатическим или вызванным вторичными причинами), (б) преимущественно картину «матового стекла» (например, неспецифический интерстициальный пневмонит (NSIP), десквамативный интерстициальный пневмонит (DIP) или (c) преимущественное сочетание фиброза легких, узора по типу матового стекла и микроузелков (например, криптогенная организующаяся пневмония (COP). Перекрывающиеся рентгенологические признаки ИЗЛ затрудняют диагностику и для подтверждения диагноза может потребоваться дополнительное тестирование, включая инвазивную биопсию легкого.

Легочный фиброз и NSIP являются двумя наиболее распространенными классами ИЗЛ и имеют часто перекрывающиеся признаки КТ, такие как базилярные субплевральные узелки, ретикуляция и тракционные бронхоэктазы. Ежегодная распространенность легочного фиброза составляет 68 случаев на 100 000 населения, а его годовая заболеваемость — 15,4 случая на 100 000 населения (2). NSIP встречается реже, чем легочный фиброз, но, по оценкам, его частота составляет 14–36% всех идиопатических интерстициальных пневмоний (3).

Глубокое обучение, форма машинного обучения, начало набирать обороты в 2009 году, когда искусственные нейронные сети продемонстрировали превосходство над другими моделями, особенно в таких областях, как классификация изображений, обнаружение объектов и распознавание речи. Сверточные нейронные сети (CNN) — это класс моделей глубокого обучения, которые показали современную производительность в задачах компьютерного зрения, таких как классификация изображений и обнаружение объектов. CNN представляют собой форму многослойных персептронов, которые используют математическую операцию, называемую сверткой, как средство выявления закономерностей в базовых данных. Сверточные слои обрабатывают входное изображение подобно нейрону в зрительной коре головного мозга. Каждый свернутый слой сворачивает входные данные и передает свои выходные данные следующему подключенному слою.

Предыдущая работа

CNN использовались для повышения эффективности радиологических практик (4), например, определения протокола с использованием краткой текстовой классификации (5), снижения дозы гадолиния при МРТ головного мозга с контрастным усилением (6), лучевой терапии (7), наведения предстательной железы биопсия (8), диагностика инсульта с помощью КТ и МРТ головного мозга (9), диагностика пневмоторакса с помощью рентгенографии грудной клетки (10), диагностика заболеваний легких, связанных с COVID-19 (11), а также многие другие. Предыдущие работы по применению CNN для диагностики ИЗЛ включали идентификацию паттернов ИЗЛ при гиперчувствительном пневмоните (12), использование семислойной CNN для характеристики легочной ткани при ИЗЛ (13) и использование гибридной модели опорных векторов на основе ядра (SVM). для классификации паттернов ИЗЛ (матовое стекло, нормальные легкие и т. д.) (14). Модель Inception-ResNet-V2 CNN использовалась для классификации различных типов фиброзных заболеваний легких, таких как идиопатический легочный фиброз (ИЛФ), хронический гиперчувствительный пневмонит и заболевания легких, связанные с соединительной тканью (15). Предыдущая работа была сосредоточена на выявлении КТ-паттернов различных ИЗЛ, таких как паттерн «матовое стекло», «соты», ретикуляция, микроузелки, консолидация, эмфизема и т. д., с использованием различных моделей машинного обучения, а не классификации ярлыка заболевания как такового (16–19).Запуск ИИ VIDA также предоставляет информацию о текстурах легочной ткани при различных ИЗЛ, но не дает определенной классификации заболеваний (20).

Рентгенологи часто расходятся во мнениях относительно диагноза ИЗЛ, основываясь только на клиническом анамнезе и результатах компьютерной томографии. Например, средняя точность торакальных рентгенологов в диагностике легочного фиброза составила 60% с положительной прогностической ценностью 96% (21). В другом исследовании рентгенологи смогли точно отличить хронический гиперчувствительный пневмонит от ИЛФ и NSIP только в 50% случаев (22). Было обнаружено, что радиологами при КТ-оценке ИЗЛ существуют значительные различия между наблюдателями и внутри них (23). Таким образом, существует потребность в компьютерных алгоритмах, которые могут помочь рентгенологам в диагностике меток заболеваний на изображениях ИЗЛ, полученных методом HRCT.

В предыдущем пилотном исследовании мы достигли точности проверки 100%, чтобы отличить КТ-изображения легких от ИЛФ, наиболее распространенной формы ИЗЛ, от здоровых легких с использованием модели CNN ResNet-50 (24). В этой статье мы представляем дальнейшее расширение наших исследований в этой области, применяя CNN для классификации между легочным фиброзом (идиопатическим и вызванным другими причинами, такими как заболевания соединительной ткани) и NSIP, двумя распространенными ИЗЛ. Мы достигли 100% точности теста, используя CNN для классификации этих двух распространенных ILD.

Метод

Мы проводили эксперименты с базой данных ILD MedGIFT. Набор данных был получен от 128 пациентов (47 женщин и 81 мужчина, средний возраст 59 лет). 108 HR (высокое разрешение) КТ изображений легких сохраняются в формате DICOM. Изображения DICOM были преобразованы в формат TIFF с использованием языка Python 3.9. Набор данных очищенных изображений состоял из 1202 изображений, которые были расположены в разных папках (каждая из которых представляет один класс ILD). Классы КТ ИЗЛ (список показан на рисунке 1) были предоставлены после прочтения экспертом-радиологом в сочетании с историей болезни пациента и другими вспомогательными тестами.

В этом исследовании мы использовали подмножество этого набора данных с метками легочного фиброза, NSIP и здоровых (всего 384 изображения от 30 пациентов). Набор данных был разделен на наборы данных для обучения, проверки и тестирования в одной и той же структуре подпапок в соотношении 0,9/0,1/0,1 (набор данных для обучения состоит из 306 изображений, наборы данных для проверки и тестирования состоят из 37 и 41 изображения соответственно). Сегментация изображения не проводилась.

Мы провели эксперимент на одном графическом процессоре Nvidia P100 с использованием языка Python 3.9. Пользовательская модель CNN (рис. 2) была реализована на базе Tensorflow 2.5. Класс Keras ImageGenerator использовался для создания меток изображений во время обучения. Мы использовали размер пакета 8, а Адам в качестве оптимизатора использовал скорость обучения 0,001, чтобы начать обучение. Генератор данных Keras (поток из каталога) использовался для увеличения изображения в реальном времени (горизонтальное отражение) во время обучения, проверки и тестирования. Изображения были перемешаны с использованием случайного начального числа 42 для создания обучающего набора данных.

Рисунок 1.Распределение набора данных изображений в различных классах интерстициальных заболеваний легких в наборе данных MedGIFT после очистки данных.

Во время обучения экспериментировали с различными размерами пакетов, и наилучшие результаты были получены при размере пакета 8 и скорости обучения 0,001. Обратный вызов ModelCheckpoint использовался для сохранения лучшей модели (наименьшая потеря проверки) с частотой сохранения = «эпоха».

После достижения максимальной точности проверки сохраненная обученная модель была загружена и протестирована на 41 тестовом изображении. Прогнозы, сгенерированные моделью, были сохранены во фрейме данных Pandas с фактическими путями к изображениям, а фрейм данных был сохранен в виде файла csv.

Рисунок 2: начальные уровни модели CNN, использованные в этом эксперименте. Полные слои модели не отображаются из-за ограничений по размеру.

Результаты и обсуждение

Во время обучения была достигнута максимальная точность проверки 100%. Лучшая модель была сохранена с помощью функции Keras model.save. Модель смогла правильно предсказать классы 100% 41 тестового изображения ILD (вывод результатов тестирования на 41 тестовом изображении).

Сохраненная модель была развернута как веб-приложение (рис. 3). Модель тестировалась на 3 тестовых изображениях, каждое из которых относилось к одному из трех классов — легочный фиброз, NSIP и здоровые легкие. Как показано на рисунках 4, 5 и 6 ниже, модель смогла точно определить правильный класс каждого из тестовых изображений.

Рис. 3. Окончательный пользовательский интерфейс веб-приложения перед загрузкой тестового изображения.

Рисунок 4. Успешная классификация загруженного веб-приложением изображения легочного фиброза HRCT легких.

Рисунок 5. Успешная классификация загруженного веб-приложением изображения легких NSIP HRCT.

Рисунок 6. Успешная классификация загруженного веб-приложением изображения здоровых легких HRCT.

Записанное видео демонстрации веб-приложения можно посмотреть здесь.

Объяснитель LIME использовался, чтобы лучше понять классификацию «черного ящика» обученной модели. На тестовом КТ-изображении легочного фиброза компания LIME смогла объяснить, что модель использует соты на КТ-изображении для классификации изображения как легочного фиброза (см. изображение ниже). Ячеистость легкого является классическим отличительным признаком легочного фиброза.

Рисунок 7. Использование объяснителя модели LIME, чтобы лучше понять, почему обученная модель классифицировала это тестовое изображение как легочный фиброз.

В этом пилотном исследовании мы обучили модель CNN правильно классифицировать легочный фиброз, NSIP и изображения здоровых легких HRCT. Мы также успешно развернули обученную модель в качестве веб-приложения и точно предсказали класс тестовых КТ-изображений.

Насколько нам известно, это первое исследование, в котором была достигнута такая высокая точность в различении легочного фиброза и NSIP HRCT даже без сегментации изображения.

Исследование предполагает, что модели глубокого обучения могут быть полезны клиницистам в радиологической классификации легочного фиброза и NSIP без необходимости дополнительного тестирования, включая инвазивную биопсию легкого.

На следующем этапе этого проекта мы планируем еще больше расширить исследование, собрав больший набор данных и проведя эксперимент, включающий больше классов ИЗЛ, таких как гиперчувствительный пневмонит, ДИП, КС и т. д.

Ссылки

1. Coultas DB, Zumwalt RE, Black WC, et al. Эпидемиология интерстициальных заболеваний легких. Am J Respir Crit Care Med; 150(4): 967–972 (1994).

2. Ferrara G, Arnheim-Dahlstrom L, Bartley K, et al. «Эпидемиология легочного фиброза: когортное исследование с использованием данных здравоохранения в Швеции». Pulm Ther; 5: 55–68 (2019).

3. Palmucci S., Roccasalva F., Puglisi S. et al.. Клинические и рентгенологические особенности идиопатической интерстициальной пневмонии: иллюстрированный обзор. Визуализация статистики; 5:347–364 (2014 г.).

4. Сельвиквог Александр и Лундервольд Арвид. Обзор глубокого обучения в медицинской визуализации с упором на МРТ. Zeitschrift für Medizinische Physik; 29(2): 102–127 (2019).

5. Ли Ю.Х. Повышение эффективности в интенсивной рентгенологической практике: определение протокола магнитно-резонансной томографии опорно-двигательного аппарата с использованием сверточных нейронных сетей с глубоким обучением. Изображение цифр J; 31(05): 604–610 (2018).

6. Гонг Э., Поли Дж. М., Винтермарк М., и др.. Глубокое обучение позволяет снизить дозу гадолиния для МРТ головного мозга с контрастным усилением. J Magn Reson Imaging; 48(2): 330–340 (2018).

7. Мейер П., Ноблет В., Маццара С., et al. Обзор по глубокому обучению для лучевой терапии. Компьютер Биол Мед; 98: 126–146 (2018).

8. Хаскинс Г., Крюкер Дж., Крюгер Ю. и др.. Изучение метрики глубокого сходства для регистрации 3D MR-TRUS. АрХив; 1806.04548v2 (2018 г.).

9. Lee EJ, Kim YH, Kim N, et al. Глубоко в мозг: искусственный интеллект в визуализации инсульта. J Stroke; 19: 277–285 (2017).

10. Тхэ Джей Джей, Дохён Ким и Дэён Ким. Автоматизированная диагностика пневмоторакса с использованием ансамбля сверточных нейронных сетей с многоразмерными рентгенографическими изображениями органов грудной клетки. АрХив; URL: https://arxiv.org/ftp/arxiv/papers/1804/1804.06821.pdf (2016 г.).

11. Озтюрк Т., Тало М., Йилдирим Э.А., et al. Автоматическое выявление случаев COVID-19 с использованием глубоких нейронных сетей с рентгеновскими снимками. Компьютер Биол Мед; 121: 103792 (2020).

12. Алибони Л., Пеннати Ф., Диас О., et al. Сверточная нейронная сеть (CNN) для распознавания паттернов интерстициального заболевания легких. Евросоответствие J; 54: PA3926 (2019).

13. Хаттикатти П. Обнаружение интерстициального заболевания легких на основе текстуры с использованием сверточной нейронной сети. Международная конференция по большим данным, Интернету вещей и науке о данных (BID), 2017 г., Пуна: 18–22 (2017 г.).

14. Аджин М. и Мредхула Л. Диагностика интерстициального заболевания легких с помощью классификации паттернов. Procedia Comput Sci;115: 195–208 (2017).

15. Уолш С.Л.Ф., Каландриелло Л., Сильва М., et al. Глубокое обучение для классификации фиброзной болезни легких на компьютерной томографии высокого разрешения: когортное исследование. Ланцет Респир Мед; 6(11): 837–845 (2018).

16. Depeursinge A, Van de Ville D, Platon A, et al. Почти аффинно-инвариантное изучение текстуры для анализа легочной ткани с использованием кадров изотропных вейвлетов. IEEE Trans Inf Technol Biomed; 16(4): 665–675 (2012).

17. Чжао В., Сюй Р., Хирано Ю., et al. Классификация паттернов диффузных заболеваний легких методом разреженного представления на изображениях HRCT. 35-я ежегодная международная конференция IEEE Engineering in Medicine and Biology Society (EMBC), 2013 г.: 5457–5460 (2013).

18. Антимопулос М., Христодулидис С., Эбнер Л., et al. Классификация легочных паттернов интерстициальных заболеваний легких с использованием глубокой сверточной нейронной сети. Трансмедицинская визуализация IEEE; 35(5): 1207–1216 (2016).

19. Sruthy PS, Dheebha J. Глубокое обучение для выявления интерстициальных заболеваний легких. Журнал вычислительной техники IOSR (IOSR-JCE);2: 17–20 (2016).

20. Вида. Видалунг.ай. URL:https://tinyurl.com/3tb5a6dp

21. Готвей М.Б., Фример М.М., Кинг Т.Е. мл. Проблемы легочного фиброза. 1: Использование КТ высокого разрешения легких для оценки пациентов с идиопатической интерстициальной пневмонией. Грудная клетка; 62(6): 546–53 (2007).

22. Флаэрти К.Р., Андрей А.С., Кинг Т.Е., et al. Идиопатическая интерстициальная пневмония. Согласны ли врачи сообщества и ученые в отношении диагноза? Am J Respir Crit Care Med; 175(10): 1054–1060 (2007).

23. Ватадани Т., Сакаи Ф., Джохко Т., et al. Межнаблюдательная вариабельность КТ-оценки сотовой структуры в легких. Радиология; 266(3): 936–944 (2013).

24. Шарма Б. Использование сверточной нейронной сети для классификации КТ-изображений идиопатического легочного фиброза. Инвестор, ориентированный на данные. URL: https://medium.com/datadriveninvestor/using-a-convulational-neural-network-to-classify-ct-scan-images-of-idiopathic-pulmonium-fibrosis-e0fb1ad4032b (2019).