Вступление

Рак возникает, когда в генах, регулирующих рост клеток, происходят изменения, называемые мутациями. Мутации позволяют клеткам бесконтрольно делиться и размножаться.

Рак груди - это рак, который развивается в клетках груди. После рака кожи это самый распространенный вид рака, диагностируемый у женщин, и вторая по значимости причина смерти от рака после рака легких. Обычно рак формируется либо в дольках, либо в протоках груди. Дольки - это железы, вырабатывающие молоко, а протоки - это пути, по которым молоко от желез к соску. Рак также может возникать в жировой ткани или волокнистой соединительной ткани в груди.

Из нескольких типов рака груди наиболее распространенным является инвазивная карцинома протоков, на которую приходится около 80% случаев рака груди. Этот тип рака груди начинается в протоках грудного молока, а затем поражает близлежащие ткани груди. Как только рак груди распространился на ткани за пределами молочных протоков, он может начать распространяться на другие близлежащие органы и ткани.

Основная гистология Жункейры: текст и атлас, Пятнадцатое издание (Энтони Мешер, стр. 486) [1] - Рак груди почти всегда возникает из эпителиальных клеток в терминальных долях железы. Наиболее распространенной формой является инвазивная карцинома протоков, при которой неопластические клетки внутрилобулярных протоков или небольших ветвей молочных протоков проникают в окружающую строму, образуя фиксированное пальпируемое образование. Распространение клеток (или метастазирование) из карциномы через кровеносные или лимфатические сосуды в важные органы, такие как легкие или мозг, является причиной смертности, связанной с раком груди .

Определенные изменения генома, например мутации в определенных генах, например BRCA1, BRCA2 PALB2, TP53, ATM, CHEK2 и PALB2 могут повысить риск развития рака груди.

Цель

Работа патологоанатома непростая. Один слайд с патологией может содержать сотни тысяч клеток. Только горстка может быть раком.

Цель этой статьи - дать обзор моего подхода к обнаружению инвазивной протоковой карциномы на гистологических изображениях рака груди.

Связанных с работой

В знаменитых ICAIR 2018 Challenge [2], Рахлин и др. [3] использовали двухэтапный процесс с использованием представления глубоких сверточных признаков для классификации гистологических изображений рака груди на нормальные, доброкачественные, in situ и инвазивный. Первый этап включал глубокие сверточные нейронные сети для неконтролируемого извлечения признаков, а второй этап включал использование Light Gradient Boosting Machine (LightGBM) для контролируемой классификации. Их подход достиг общего значения AUC 97% в Challenge.

Набор данных

Исходный набор данных [4], использованный в этом проекте, состоял из 162 полных слайдов изображений образцов рака груди, сканированных с увеличением x40. Из этого было извлечено 277 524 патча размером 50 x 50 пикселей, из которых 198 738 были отрицательными для инвазивной протоковой карциномы, а остальные 78 786 - положительными.

Методы

A. Предварительная обработка изображений

Никакой предварительной обработки изображений не производилось. Это было связано с тем, что изображения были предварительно обработаны (в фрагменты размером 50x50 пикселей) авторами набора данных.

Б. Нормализация и увеличение пятен

Гистологические изображения бывают разных цветов, даже если используются одни и те же красители - гематоксилин и эозин. Эта изменчивость цвета может легко создать большую проблему при работе с изображениями алгоритмически, особенно если используемый алгоритм имеет высокую способность распознавания образов, например глубокие сверточные нейронные сети.

В своих статьях Метод нормализации гистологических слайдов для количественного анализа [5] и Нормализация цвета с сохранением структуры для гистологических изображений [6], Маценко и др. . и Вахадане и др. Все предложенные методы решения этой задачи.

По сути, экстрактор пятен (MacenkoStainExtractor в случае метода Macenko et al. И VahadaneStainExtractor в случае метода Vahadane et al.) Предоставляет методы для оценки пятна матрица S и матрица концентраций C данного гистологического изображения I. Сначала для данного изображения рассчитывается массив оптической плотности OD. Затем матрица окрашивания S может быть рассчитана по желаемой методике (MacenkoStainExtractor или VahadaneStainExtractor). Матрица концентрации C в конечном итоге получается путем "решения" последнего уравнения ниже:

Метод MacenkoStainExtractor рассматривает проекцию пикселей на 2D-плоскость, определяемую двумя главными собственными векторами ковариационной матрицы оптической плотности OD. Затем он рассматривает крайние направления (с точки зрения полярной угловой координаты) в этой плоскости.

VahadaneStainExtractor, с другой стороны, использует подход, основанный на изучении словаря, чтобы найти два основных пятна, которые лучше всего подходят для изображения. (Подробнее см. Статью).

В конце концов, нормализация выполняется путем замены матрицы пятен S изображения на матрицу целевого изображения, а затем рекомбинации новой матрицы пятен с матрицей концентрации C . Увеличение выполняется путем некоторого возмущения матрицы концентрации C изображения и ее рекомбинации с матрицей пятен S.

Однако следует отметить, что вышеупомянутые методы нормализации и увеличения не дали лучшей производительности модели по сравнению с производительностью, наблюдаемой, когда обычная 256-пиксельная нормализация и методы увеличения «перевернуть-повернуть», используемые в большинстве задач компьютерного зрения, применялись к 50x50. -пиксельные патчи. Таким образом, нормализация выполнялась путем вычисления средней интенсивности красного, зеленого и синего пикселей для всех изображений в обучающем наборе и выполнения попиксельного вычитания средних значений из входных изображений; увеличение выполнялось горизонтальным переворачиванием, вертикальным переворачиванием и случайным вращением.

С. Система классификации

Система классификации состояла из ансамбля сверточных нейронных сетей (CNN), которые были предварительно обучены на оригинальном наборе данных ImageNet.

D. Детали компонента

  • Архитектуры CNN: используемые архитектуры CNN принадлежат к семейству EfficientNets [7]. EfficientNetB3, EfficientB4 и EfficientB5 были этими архитектурами CNN. Для вариативности в окончательный ансамбль ResNet50 (из семейства Residual Neural Networks [8]) был включен в качестве четвертой архитектуры.
  • Стратегия ввода CNN: из-за их относительно небольшого размера (50x50 пикселей) ни случайное кадрирование (метод, при котором случайное кадрирование берется из изображений), ни стратегия случайного изменения размера (метод, при котором изображения произвольно измененный размер и масштабирование при произвольной обрезке) был выполнен на изображениях до того, как была произведена загрузка в нейронные сети.
  • Функция потерь. Основным способом обучения нейронных сетей является оптимизация весов их нейронов с целью улучшения сетей таким образом, чтобы их выходные данные максимально соответствовали достоверным данным. Это возможно благодаря функциям потерь. Используемая функция потерь представляла собой двоичную кросс-энтропийную потерю [9].

  • Оптимизатор: выбор оптимизатора для нейронной сети очень важен, поскольку он влияет на процесс оптимизации весов нейронов и производительность сети в целом. Использовался оптимизатор Adam. Что касается инициализации параметров для оптимизатора, были использованы следующие настройки: lr = 0,0006, beta_1 = 0,9, beta_2 = 0,999, decay = 0,0, epsilon = None и amsgrad = False.

Обучение

Набор данных был разделен на наборы для обучения, проверки и тестирования. Нейронные сети обучались за 25 эпох с использованием оптимизатора Adam. Недостаточно представленный класс - инвазивная протоковая карцинома - получил более высокую частоту, основанную на весе, в обучающей выборке. Каждому классу был присвоен вес, обратный его частоте в обучающей выборке. Использовались размер пакета 8 и скорость обучения 0,0006. Скорость обучения снижалась в 4 раза, если потери не уменьшались за 3 эпохи, и обучение прекращалось, если потери не уменьшались за 4 эпохи. Оценка проводилась по проверке, установленной для каждой эпохи; и модель с наименьшими потерями при проверке сохранялась после каждой эпохи. Обучение проводилось на графической карте NVIDIA GTX 1050.

Прогноз

После обучения модель с наименьшей потерей проверки использовалась для прогнозирования (и выполнения оценки). На тестовом наборе было выполнено 25-шаговое увеличение времени тестирования, и было вычислено среднее значение прогнозов softmax из 25 шагов.

Ансамбль

Наконец, был создан большой ансамбль нейронных сетей. Рассмотрим конфигурации C = {c₁,…, cₙ), в которых каждая конфигурация использовала одни и те же гиперпараметры (например, этапы увеличения во время тестирования, график скорости обучения), но разные архитектуры CNN (например, ResNet50). Каждая конфигурация cᵢ состояла из m = 1 обученной модели, и для каждого cᵢ были получены прогнозы y ᵢ. Объединение было выполнено таким образом, что среднее значение прогнозов y, где y = {y ᵢ,…, y ₙ} для каждого cᵢ.

Оценка

Оценка проводилась с использованием 6 классических показателей: Чувствительность, Специфичность, Положительное прогнозируемое значение (PPV), Отрицательное прогнозируемое значение (NPV) , Статистика Юдена (или Индекс Юдена) и Площадь под характеристической кривой приемника (AUC ).

  • Чувствительность - это мера способности нейронных сетей правильно идентифицировать изображения с инвазивной карциномой протоков. Он также известен как Отзыв.

  • Специфичность - это мера способности нейронных сетей правильно идентифицировать изображения без инвазивной протоковой карциномы.

  • Прогнозное положительное значение (PPV) - это вероятность того, что изображения, классифицированные как инвазивная протоковая карцинома, действительно имеют его.

  • Прогнозируемое отрицательное значение (NPV) - это вероятность того, что изображения, классифицированные как не имеющие инвазивной протоковой карциномы, действительно не имеют его.

  • Статистика Юдена (или Индекс Юдена) - это разница между показателем истинных положительных и ложноположительных результатов.

  • Площадь под кривой рабочих характеристик приемника (AUC) равна вероятности того, что нейронные сети оценили случайно выбранный положительный экземпляр выше, чем случайно выбранный отрицательный. Наилучший показатель AUC - 1 (или 100%).

Результаты, полученные нейронными сетями, были следующими:

Визуализация вероятностного ландшафта инвазивной протоковой карциномы

Это было сделано для того, чтобы получить визуальный снимок того, насколько хорошо нейронные сети «выглядели» во время обучения. По сути, все участки размером 50x50 пикселей были собраны обратно в целые изображения на слайдах, после чего был построен вероятностный ландшафт инвазивной протоковой карциномы для каждого из целых изображений слайдов.

Заключение

Хотя компьютеры в ближайшее время не заменят патологов, правильно спроектированные инструменты на основе ИИ обладают большим потенциалом для повышения эффективности рабочего процесса и точности диагностики в практике патологии. Последние тенденции, такие как расширение данных, краудсорсинг для создания аннотированных наборов данных и неконтролируемое обучение с молекулярными и / или клиническими результатами по сравнению с человеческими диагнозами в качестве источника достоверной информации, исключают прямую роль патологов в разработке алгоритмов.

Правильная интеграция систем на основе искусственного интеллекта в практику анатомической патологии обязательно потребует полностью цифровых платформ визуализации, капитального ремонта устаревшей инфраструктуры информационных технологий, модификации рабочих процессов лаборатории / патологоанатома, соответствующих моделей возмещения / компенсации затрат и, в конечном итоге, активного участия патологов в поощрять участие и надзор.

Обо мне

Олувафеми Огундаре - студентка третьего курса медицинского факультета Ибаданского университета, Нигерия. Он страстно увлечен искусственным интеллектом, геномикой и биоинформатикой из-за их потенциала, чтобы ввести человечество в эру точной / персонализированной медицины. В свободные дни он совершенствует свои навыки машинного обучения и изучает новые концепции геномики и биоинформатики. Он работал над рядом связанных со здоровьем проектов машинного обучения, включая сегментацию опухоли в 3D-МРТ головного мозга, обнаружение пневмонии на рентгеновских изображениях грудной клетки с использованием компьютерного зрения и прогнозирование выживаемости пациентов с помощью случайных лесов. Вы можете отправить ему письмо по адресу [email protected] или связаться с ним в LinkedIn по адресу https://www.linkedin.com/in/oluwafemi-ogundare-65b6a0185/.

Код, необходимый для воспроизведения результатов, представленных в этой статье, можно найти на github.

использованная литература

[1] Основная гистология Жункейры: текст и атлас, пятнадцатое издание (Энтони Мешер).

[2] Задача ICAIR 2018 по изображениям гистологии рака молочной железы.

[3] Рахлин, А., Швец, А., Игловиков, В., Калинин, А .: Глубокие сверточные нейронные сети для анализа изображений гистологии рака груди.

[4] Энджел, К.Р., Аджай Б., Фабио, Г., Ханна, Г., Майкл Ф., Шрайдер Г., Натали, С., Джон, Т. и Анант, М. (2014) . Автоматическое обнаружение инвазивной карциномы протоков во всех изображениях слайдов с помощью сверточных нейронных сетей .

[5] Маценко, М., Нитхаммер, М., Маррон, Дж. С. И Борланд Д. (2009). Метод нормализации гистологических препаратов для количественного анализа.

[6] Вахадане, А., Пэн, Т., Албаркуни, С., Бауст, М., Стейгер, К., Шлиттер, А.М., Сетхи, А., Эспозито, И., и Наваб, Н. (2015). Нормализация цвета с сохранением структуры для гистологических изображений .

[7] Тан, М. и Ле, К.В. (2019). EfficientNet: переосмысление масштабирования модели для сверточных нейронных сетей .

[8] Хэ, К., Чжан, X., Рен, С. и Сун, Дж. (2015). Глубокое остаточное обучение для распознавания изображений .

[9] Стэнфордский CS231n: функции потерь и оптимизация.

[10] Джером Ю. Ченг, доктор медицины, Джейкоб Т. Абель, доктор медицины, Улисс Г.Дж. Балис, доктор медицины, Дэвид С. МакКлинток, доктор медицины, и Лирон Пантановиц, доктор медицины. (2020). Проблемы развития, развертывания и регулирования искусственного интеллекта (ИИ) в анатомической патологии .