Это краткий обзор недавней статьи [1], принятой в MICCAI2018, где проводится семантическая сегментация медицинских изображений. В статье используется модифицированная архитектура U-Net [2] для сегментации сосудов почек. Чтобы избежать медицинской терминологии, я заменяю сосуды почек переднего плана, такие как артерия, на F1, вены на F2 и мочеточник на F3. Таким образом, проблема семантической сегментации имеет фоновый класс B и три класса переднего плана (F1, F2, F3).

В документе добавлено несколько остаточных ссылок на архитектуру U-Net, чтобы избежать проблемы исчезающего градиента. На следующем рисунке зеленым цветом выделены остаточные связи между слоями культуры и средними слоями. Остаточные связи помогают распространять градиент на ранние слои. Дальнейшая оценка интеграции остаточных ссылок в архитектуру U-Net доступна в [3].

Эта статья привлекает внимание к другой идее в статье; как обрабатывать данные о дисбалансе? Классы переднего плана (сосуды почек) представляют собой крошечную анатомию. Все классы переднего плана вместе составляют менее пяти процентов, в то время как фоновый класс составляет более 95%. Это типичный сценарий данных о дисбалансе. Хорошо зарекомендовавшие себя методы обработки данных о дисбалансе

  • Пользовательское взвешивание, такое как взвешивание медианной частоты
  • Начальная загрузка
  • Пользовательская выборка (передискретизация и недостаточная выборка)

В этой статье предлагается вариант пользовательской выборки, который, насколько мне известно, кажется новым. Вышеупомянутые методы одинаково обрабатывают все пиксели / образцы фона, например назначить небольшой вес. В этой статье случайной выборке фонового подмножества (B ’) присваивается высокий вес. Такой подход снижает количество ложных срабатываний и улучшает общую производительность системы. Я представлю подробный численный пример этого подхода, а затем объясню его интуицию.

На следующем рисунке сравнивается типичная схема взвешивания с подходом, описанным в статье, на примере игрушечных двух классов. Типичный подход присваивает высокий вес W_F = 90 классам переднего плана, занимающим 10% объема данных, и малый вес W_B = 10 выборкам фонового класса. Напротив, в этой статье фоновый класс делится на B и B ’. B ’- это случайно отобранное подмножество фона, имеющее такой же объем, как и классы переднего плана меньшинства. Таким образом, распределение данных становится 80% B, 10% B 'и 10% F. В то время как выборкам фона B назначается небольшой вес W_B = 20, выборкам переднего плана F и фонового B' назначается высокий вес W_B '= W_f = 40 .

Чтобы понять этот подход, в следующей таблице анализируется функция потерь для типичной схемы взвешивания. Если прогнозы сети верны, потери в сети равны нулю, т.е. не наказываются. Но все становится интереснее в случае ошибочного прогноза. Если истинная выборка переднего плана, взвешенная W_F = 90, ошибочно классифицируется как фон, потери в сети равны 90. Напротив, потери в сети равны 10, если истинная выборка фона, взвешенная W_B = 10, ошибочно классифицируется как передний план. Такое асимметричное распределение потерь склоняет сеть классифицировать любой сбивающий с толку пиксель / образец как передний план. Это снижает потери в сети, избегая высоких потерь переднего плана (W_F = 90). К сожалению, это увеличивает количество ложных срабатываний.

За счет введения фонового подмножества B ’, которое имеет такой же малый объем и большой вес, что и класс переднего плана, количество ложных срабатываний уменьшается. Это устраняет нежелательный стимул классифицировать любые сбивающие с толку сэмплы / пиксели как передний план. С введением B ’функция потерь принимает следующий вид

Сеть будет классифицировать любой сбивающий с толку образец / пиксель как B ’или F, а не B, чтобы избежать большого штрафа. Но поскольку и B ’, и F имеют одинаковый объем и вес, сеть не будет настроена против любого из этих классов. Согласно статье, это снижает количество ложных срабатываний и повышает точность классификации, как показано в следующей таблице. Такой подход к обработке данных о дисбалансе называется «случайной выборкой» (RS).

Качественная оценка с использованием изображений компьютерной томографии доступна в статье.

Мои комментарии:

  • Мой главный отрицательный комментарий - это отсутствие развернутой оценки. Предлагаемый подход оценивается на едином наборе данных для единственной задачи семантической сегментации. Хотя этот подход кажется интуитивным, необходимы дополнительные эксперименты.

[1] Kid-Net: сверточные сети для сегментации почечных сосудов из компьютерных томов.

[2] U-net: Сверточные сети для сегментации биомедицинских изображений.

[3] Сегментация почечных структур для хирургии под визуальным контролем.