Обзор: CUMedVision1 - полностью сверточная сеть (биомедицинская сегментация изображений)

В этой статье рассматривается CUMedVision1 от CUHK. Используя полностью сверточную сеть (FCN), CUMedvision1 значительно превосходит современные подходы по сравнению с эталонным набором данных 2012 ISBI segmentation challenge.

Таблица лидеров: http://brainiac2.mit.edu/isbi_challenge/leaders-board

В этой задаче сегментируются изображения, полученные с помощью серийной просвечивающей электронной микроскопии (ssTEM). Пример показан ниже:

Для изображения выше нам нужны специалисты по маркировке (или аннотации). Этот процесс трудоемкий и дорогостоящий. Если у нас есть автоматическая маркировка по сегментации, мы сможем сэкономить время и деньги.

Вы можете спросить: «Неужели это слишком узко, чтобы читать о биомедицинской сегментации изображений? Я не работаю в этой сфере, разве это не так полезно для меня? » Однако мы можем изучить его методы и применить их в различных отраслях. Скажем, например, контроль качества / автоматический контроль / автоматическая робототехника в процессе строительства / изготовления / производства.

CUHK очень активен в области глубокого обучения. И эта работа была опубликована в 2016 AAAI с более чем 60 цитированием, что является высоким показателем для этой области, когда я писал эту статью. (Сик-Хо Цанг @ средний)

Что покрыто

Архитектура FCN
Функция потерь
Уточнение границ
Результаты

1. Архитектура FCN

Как и на рисунке выше, сначала у нас есть входное изображение слева.
Затем входное изображение проходит путь понижающей дискретизации со сверточным и максимальным объединяющими слоями. Этот путь направлен на классификацию семантического значения на основе абстрактной информации высокого уровня.
На определенных слоях перед объединением карты функций проходят путь повышения дискретизации со сверточными и деконволюционными слоями. Этот путь предназначен для восстановления мелких деталей, таких как границы. Для повышения частоты дискретизации используется обратная свертка. И мы можем получить результаты в C1, C2 и C3.
Наконец, они складываются, и на этой карте плавких предохранителей будет указано softmax.

Основная идея заключается в том, что

Абстрактная информация с более высоких уровней помогает решить проблему того, что.
Местная информация с нижних уровней помогает решить проблему, где.

Эта идея была принята во многих других фреймворках глубокого обучения.

2. Функция потерь

Первая часть - это просто стандартный термин регуляризации, использующий норму l2 для наказания весов, чтобы они не были слишком большими, т.е. чтобы уменьшить проблему переобучения.

Вторая часть - это член потери кросс-энтропии в C1, C2 и C3.

Третья часть - это термин потери кросс-энтропии на конечном выходе.

3. Уточнение границ

После сегментации по FCN границу сегментации иногда можно прервать. Это происходит из-за слияния в конце FCN. Карта вероятности pw (x) имеет линейную комбинацию с двоичным контуром p (x) с параметром wf. И этот wf определяется минимизацией ошибки rand.

Эта часть относительно не так важна, но мы можем заметить, что после FCN может потребоваться уточнение границ. Действительно, двоичный контур p (x) используется в середине FCN для обучения в CUMedVision2. Я надеюсь, что смогу рассказать об этом в ближайшем будущем.

4. Результаты

Необходимо измерить 3 ошибки (эти 3 ошибки были устранены в более поздних соревнованиях):

Ошибка Rand: мера сходства между двумя кластерами или сегментами. Для оценки сегментации ЭМ исключается нулевой компонент исходных меток (фоновые пиксели наземной истины).
Ошибка деформации: показатель сегментации, который учитывает топологические разногласия (разделение и слияние объектов).
Ошибка пикселей: Евклидово расстояние в квадрате между исходной меткой и меткой результата.

Версии CUMedVision

CUMedVision-N: N означает количество сетей FCN. Окончательный результат будет усреднен из нескольких FCN для получения лучших результатов. Этот метод представляет собой своего рода технику усиления / ансамбля, которая используется в течение многих лет. В глубоком обучении, таком как LeNet и AlexNet, они также использовали эту технику.
CUMedVision-4 (C1), CUMedVision-4 (C2), CUMedVision-4 (C3): они обычно имеют более высокие ошибки.
CUMedVision-6 (с C): с 6 FCN имеет наименьшую ошибку деформации.
CUMedVision-4 (с объединением): объединяя результаты от C1 до C3, он имеет наименьшую ошибку ранда и ошибку пикселей.
CUMedVision-Ours: лучшие результаты от CUMedVision-4 (со слиянием) и CUMedVision-6 (с C).

Время вывода: 0,4 секунды для одного тестового изображения размером 512 × 512.

Если вы читали о FCN, используемом для общей сегментации изображений, вы можете обнаружить, что архитектуры FCN очень похожи. CUMedVision1 успешно трансплантировал сеть FCN для сегментации биомедицинских изображений. Если у нас есть задачи, требующие автоматической сегментации, особенно двоичная классификация, мы также можем попробовать это решение.

использованная литература

[2016 AAAI] [CUMedVision1]
Глубокие контекстные сети для сегментации нейронных структур

Мои обзоры

[LeNet] [AlexNet] [FCN]