Это четвертый блог из пяти статей о проекте AI4SAR, спонсируемом ESA Φ-lab. Если вы еще не слышали об AI4SAR, самое время посетить нашу страницу проекта.

В этой статье мы расскажем вам, почему мы начали заниматься вырубкой лесов в ICEYE и как мы продолжали развивать нашу модель вырубки лесов во время проекта AI4SAR.

Зачем SAR вырубка леса?

Вырубка леса со всеми типами изображений SAR имеет довольно большой недостаток по сравнению с гиперспектральными изображениями, такими как свободно доступные глобальные изображения Sentinel-2 или растры, опубликованные для исследовательских и некоммерческих целей программой Planet NICFI. То есть в SAR нет NDVI-индекса или какой-либо характеристики, связанной с цветом оптического спектра зеленого цвета. Некогерентный анализ вырубки лесов должен выполняться только на основе интенсивности обратного рассеяния и текстуры изображения РСА, что может оказаться сложной задачей.

Однако есть очень веская причина для разработки обнаружения обезлесения с помощью изображений SAR, а именно время. В качестве примера рассмотрим исследование метеорологического облачного покрова, проведенное (Collow, Allison B. Marquardt, Mark A. Miller и Lynne C. Trabachino, 2016). Авторы использовали набор из трех радиолокационных инструментов для оценки процентной доли горизонта. над тестовой площадкой под облачным покровом за период наблюдений в 2014 году на участке, который можно увидеть на рис. 3 и один интересующий показатель которого показан на рис. 4:

Это обеспечивает подходящую нишу для обнаружения вырубки лесов SAR. А именно, используя спутник для получения изображений на основе SAR, можно гарантировать получение данных, а время отклика определяется только частотой сбора данных, а не погодными условиями.

Почему созвездие малых спутников?

Любой, кто работал с данными SAR, знает, насколько прекрасной может быть работа с данными наблюдения Земли, которые игнорируют облака. Лучший вопрос: зачем использовать малый спутник X-диапазона вместо, например, данных с превосходных спутников ESA Sentinel-1 SAR-диапазона C-диапазона?

Это зависит от приложения. С-диапазон больше проникает в купол, предоставляя больше информации о лежащих в его основе вещах, таких как деградация. Однако обратное рассеяние будет более рассеянным, а базовое разрешение ниже.

Наиболее уместный момент исходит от приложений, где желателен активный ответ. Имея большое созвездие спутников SAR на различных орбитах и ​​нейронную сеть, способную работать с несколькими инцидентами, время повторного посещения и повторного наблюдения может быть увеличено до порядка нескольких дней или даже часов.

Это дает возможность для смены парадигмы. Наблюдатель может перейти от реактивной роли к активной. Все еще активные сайты могут быть идентифицированы, и вмешательство может быть организовано.

Нехватка ярлыков

Одной из самых больших проблем при обучении многовременных моделей является сбор обучающих данных. В настоящее время нам повезло, что у нас есть несколько глобальных наборов данных о землепользовании и растительном покрове, таких как растры Esri LULC или ESA LULC. Однако эти наборы данных обычно имеют временное разрешение порядка лет, в то время как нам нужны временные частоты порядка дней, чтобы правильно аннотировать наши стопки изображений.

Мы знали, что не сможем аннотировать достаточно данных, чтобы самостоятельно построить надежную модель. Трансферное обучение помогло бы, но SAR ImageNet нет (пока…). Нам нужно было использовать другой подход.

Особенности леса

Для нашего базового кодировщика мы собрали обучающий набор из 1266 комплексных полосовых изображений (SLC) из 10 секунд из тропических лесов по всему миру, каждый размером примерно 30 х 70 км. Затем мы обучили свёрточную нейронную сеть с обучаемыми параметрами (~40 млн) для преобразования изображений SAR в карты лесного и нелесного земного покрова, используя Esri LULC в качестве обучающих меток.

После этого у нас появился кодировщик, способный превращать сложные изображения SAR с высоким динамическим диапазоном и высокой энтропией в гладкую и ограниченную карту апостериорной вероятности. Короче говоря, мы научили сеть преобразовывать изображения SAR в лесные объекты. Почти на месте!

Мультивременные прогнозы

Конечный продукт, который нам нужен, — это не классификатор «лес-не-лес». Нам все еще нужно научить модель обнаруживать участки вырубки леса. Для этого шага нам понадобятся высококачественные метки, аннотированные с правильными временными шагами. Мы сами аннотировали 1608 участков вырубки леса, чтобы проверить концепцию.

Пространственно-временные модели через архитектуру ConvLSTM

Одна из повторяющихся проблем при анализе изображений SAR заключается в том, как справиться с пространственно-временным характером анализа данных SAR. Информационное содержание, доступное в одном пикселе без какого-либо контекста, практически равно нулю из-за явления спекла. Некоторые из наиболее ценных средств SAR-аналитики основаны на большом наборе спутниковых изображений и временных моделях, способных анализировать имеющуюся информацию, когерентную или нет.

Также типично использовать многоканальные изображения SAR либо в пространственном, либо во временном измерении, чтобы уменьшить влияние спеклов, используя контекст для улучшения отношения сигнал/шум.

В нашей работе мы хотели поэкспериментировать с пространственно-временной моделью, способной использовать как пространственный, так и временной контекст для обработки стопок изображений SAR. Простое добавление временного измерения к двумерной сверточной нейронной сети может быть разумным для стеков SAR с малой глубиной. Однако мы хотели использовать модель, способную анализировать стопки с десятками или сотнями изображений.

После обзора литературы мы закончили реализацию модели ConvLSTM. LSTM (Hochreiter, Sepp, and Jürgen Schmidhuber. 1997) — это архетипическая временная модель, способная анализировать временные последовательности до сотен временных шагов. ConvLSTM (Xingjian, SHI, et al. 2015) представляет собой расширение модели LSTM на пространственно-временную область путем изменения входных данных для работы с помощью оператора свертки вместо мультипликативного оператора. Нас вдохновила работа (Rußwurm M, Körner M. Многовременная классификация земного покрова с последовательными рекуррентными кодировщиками. ISPRS International Journal of Geo-Information. 2018; 7(4):129) в наша попытка использовать для обнаружения изменений в стеках изображений SAR. Рисунок, адаптированный из их работы, можно увидеть на рисунке 5:

Они использовали двунаправленную RNN, мы используем однонаправленную модель. На каждом временном шаге в модель вводится фрагмент изображения. Модель сворачивает фрагменты изображения, одновременно распространяя полученные функции вперед во времени. Внутренние состояния также свернуты вместе, что дает выходные данные модели, которые являются более гладкими в пространстве, чем соответствующий попиксельный LSTM. Некоторые примеры представлений состояний ConvLSTM можно увидеть на рисунке 6:

Однако эффективное наращивание мощности модели рекуррентной нейронной сети может оказаться сложной задачей. Слишком большое количество повторяющихся слоев может привести к проблемам с числами, а модель требует относительно большого объема памяти на входной пиксель патча. Чтобы решить эти проблемы, мы взяли кодировщик леса, обученный картам земного покрова, заморозили его веса и привязали к модели на основе ConvLSTM. Затем мы обучили ConvLSTM обнаруживать области обезлесения на стопках изображений SAR.

Полученные результаты

После всех этих шагов мы, наконец, создали модель, способную превращать стопки изображений SAR с разными углами падения в полигоны обезлесения.

Теперь у нас была система обнаружения обезлесения, способная контролировать сотни тысяч квадратных километров территории с помощью группировки спутников. Следующий шаг был естественным: мы развернули его в большом масштабе, взяли прогнозы, исправили их и отправили обратно в машину в виде свежих обучающих меток, создав петлю обратной связи для большей осведомленности о том, что происходит в лесах мира.