В этой статье рассматривается CUMedVision1 от CUHK. Используя полностью сверточную сеть (FCN), CUMedvision1 значительно превосходит современные подходы по сравнению с эталонным набором данных 2012 ISBI segmentation challenge.
Таблица лидеров: http://brainiac2.mit.edu/isbi_challenge/leaders-board
В этой задаче сегментируются изображения, полученные с помощью серийной просвечивающей электронной микроскопии (ssTEM). Пример показан ниже:
Для изображения выше нам нужны специалисты по маркировке (или аннотации). Этот процесс трудоемкий и дорогостоящий. Если у нас есть автоматическая маркировка по сегментации, мы сможем сэкономить время и деньги.
Вы можете спросить: «Неужели это слишком узко, чтобы читать о биомедицинской сегментации изображений? Я не работаю в этой сфере, разве это не так полезно для меня? » Однако мы можем изучить его методы и применить их в различных отраслях. Скажем, например, контроль качества / автоматический контроль / автоматическая робототехника в процессе строительства / изготовления / производства.
CUHK очень активен в области глубокого обучения. И эта работа была опубликована в 2016 AAAI с более чем 60 цитированием, что является высоким показателем для этой области, когда я писал эту статью. (Сик-Хо Цанг @ средний)
Что покрыто
- Архитектура FCN
- Функция потерь
- Уточнение границ
- Результаты
1. Архитектура FCN
- Как и на рисунке выше, сначала у нас есть входное изображение слева.
- Затем входное изображение проходит путь понижающей дискретизации со сверточным и максимальным объединяющими слоями. Этот путь направлен на классификацию семантического значения на основе абстрактной информации высокого уровня.
- На определенных слоях перед объединением карты функций проходят путь повышения дискретизации со сверточными и деконволюционными слоями. Этот путь предназначен для восстановления мелких деталей, таких как границы. Для повышения частоты дискретизации используется обратная свертка. И мы можем получить результаты в C1, C2 и C3.
- Наконец, они складываются, и на этой карте плавких предохранителей будет указано softmax.
Основная идея заключается в том, что
- Абстрактная информация с более высоких уровней помогает решить проблему того, что.
- Местная информация с нижних уровней помогает решить проблему, где.
Эта идея была принята во многих других фреймворках глубокого обучения.
2. Функция потерь
Первая часть - это просто стандартный термин регуляризации, использующий норму l2 для наказания весов, чтобы они не были слишком большими, т.е. чтобы уменьшить проблему переобучения.
Вторая часть - это член потери кросс-энтропии в C1, C2 и C3.
Третья часть - это термин потери кросс-энтропии на конечном выходе.
3. Уточнение границ
После сегментации по FCN границу сегментации иногда можно прервать. Это происходит из-за слияния в конце FCN. Карта вероятности pw (x) имеет линейную комбинацию с двоичным контуром p (x) с параметром wf. И этот wf определяется минимизацией ошибки rand.
Эта часть относительно не так важна, но мы можем заметить, что после FCN может потребоваться уточнение границ. Действительно, двоичный контур p (x) используется в середине FCN для обучения в CUMedVision2. Я надеюсь, что смогу рассказать об этом в ближайшем будущем.
4. Результаты
Необходимо измерить 3 ошибки (эти 3 ошибки были устранены в более поздних соревнованиях):
- Ошибка Rand: мера сходства между двумя кластерами или сегментами. Для оценки сегментации ЭМ исключается нулевой компонент исходных меток (фоновые пиксели наземной истины).
- Ошибка деформации: показатель сегментации, который учитывает топологические разногласия (разделение и слияние объектов).
- Ошибка пикселей: Евклидово расстояние в квадрате между исходной меткой и меткой результата.
Версии CUMedVision
- CUMedVision-N: N означает количество сетей FCN. Окончательный результат будет усреднен из нескольких FCN для получения лучших результатов. Этот метод представляет собой своего рода технику усиления / ансамбля, которая используется в течение многих лет. В глубоком обучении, таком как LeNet и AlexNet, они также использовали эту технику.
- CUMedVision-4 (C1), CUMedVision-4 (C2), CUMedVision-4 (C3): они обычно имеют более высокие ошибки.
- CUMedVision-6 (с C): с 6 FCN имеет наименьшую ошибку деформации.
- CUMedVision-4 (с объединением): объединяя результаты от C1 до C3, он имеет наименьшую ошибку ранда и ошибку пикселей.
- CUMedVision-Ours: лучшие результаты от CUMedVision-4 (со слиянием) и CUMedVision-6 (с C).
Время вывода: 0,4 секунды для одного тестового изображения размером 512 × 512.
Если вы читали о FCN, используемом для общей сегментации изображений, вы можете обнаружить, что архитектуры FCN очень похожи. CUMedVision1 успешно трансплантировал сеть FCN для сегментации биомедицинских изображений. Если у нас есть задачи, требующие автоматической сегментации, особенно двоичная классификация, мы также можем попробовать это решение.
использованная литература
- [2016 AAAI] [CUMedVision1]
Глубокие контекстные сети для сегментации нейронных структур