Глобальное потепление, вырубка лесов, рост городов и другие факторы вызывают резкие изменения поверхности земли. С помощью данных дистанционного зондирования, записанных с различных спутников EO (наблюдения за Землей), и использования машинного обучения можно выявлять и отслеживать долгосрочные изменения. Основной интерес для лиц, принимающих решения, представляет понимание таких долгосрочных тенденций (например, в каких регионах мы можем количественно оценить сокращение лесов и экосистем или крупномасштабное увеличение городских территорий). Долгосрочный анализ тенденций площадей также является обязательным приложением для DTE (цифровой близнец Земли). В рамках проекта Vision Impulse и при поддержке ESA PhiLab мы показываем, как в таком сценарии можно использовать ИИ для извлечения долгосрочных тенденций из синтеза существующих данных ЭО.

Введение

Первый метеорологический спутник был запущен в 1959 году, за ним последовали многие другие спутники EO, а новые были запущены совсем недавно, в 2021 году. Эти спутники запускаются различными финансируемыми государством организациями (например, ЕКА, НАСА, CNSA, Роскосмос и т. д.) и частными компаний (например, SpaceX, Iceye, Astroscale). Каждый спутник оснащен определенными датчиками и приборами и измеряет различные характеристики земной поверхности (радиолокационные изображения, мультиспектральные изображения, скорость ветра, температуру и т. д.).

Проблема возникает при использовании данных из нескольких источников EO в одной модели. Различные спутники EO предназначены для разных вариантов использования и целей и, следовательно, имеют разные компромиссы. В результате записанное радиолокационное изображение одной и той же области и с одинаковыми спектральными диапазонами для каждого диапазона может сильно отличаться в зависимости от спутника, с которого было записано изображение. Различия включают яркость, пространственное и временное разрешение. Например, спутники Sentinel-2 регистрируют одну и ту же площадь каждые 5 дней с пространственным разрешением 10 м на пиксель, тогда как спутники MODIS регистрируют ту же площадь каждые 1–2 дня, но с меньшим пространственным разрешением 1 км на пиксель. Если бы было возможно объединить преимущества отдельных источников EO в модели слияния, это значительно увеличило бы количество и качество данных EO.

Одним из примеров использования комбинации спутниковых данных является долгосрочная разработка классов землепользования и земельного покрова (LULC) с высоким пространственным разрешением с течением времени. Для этого приложения мы изучаем ЭО-данные из двух разных спутниковых источников; Данные Sentinel-2 [2] и данные Landsat-ARD [3]. Спутник Sentinel-2 был впервые запущен Европейским космическим агентством (ESA) в 2015 году, и с 2016 года данные доступны в 13 уникальных спектральных диапазонах. Четыре из этих спектральных диапазонов (красный, зеленый, синий и инфракрасный) имеют пространственное разрешение 10 метров на пиксель. Данные Landsat-ARD (Analysis Ready Data) состоят из предварительно обработанных данных различных миссий Landsat, запущенных НАСА, и содержат семь уникальных спектральных диапазонов. Четыре из этих семи диапазонов имеют такой же спектральный диапазон, что и диапазоны Sentinel-2 (красный, зеленый, синий и инфракрасный), но имеют более низкое пространственное разрешение, составляющее всего примерно 28 метров на пиксель.

Однако, в отличие от данных Sentinel-2, данные Landsat-ARD имеют наблюдения, доступные еще с 1997 г. Для точного анализа последних 25 лет необходимо учитывать ЭО-данные обеих спутниковых миссий.

Мы стремимся использовать машинное обучение для объединения обоих данных EO в модели слияния. Такая модель слияния объединяет данные ЭО для создания синтетических данных ЭО. Эти синтетические данные EO должны содержать преимущества независимых спутников EO. Были предложены модели, которые объединяют свойства каждого спутника, такие как оценка NDVI в статье Gavilán et. др. [4], но редко модели, которые объединяют необработанные входные данные для вывода информации.

На практике модель слияния создает синтетическое изображение Sentinel-2 из изображения Landsat-ARD. Эти синтетические наблюдения имеют высокое пространственное разрешение данных Sentinel-2 и высокое временное покрытие данных Landsat-ARD. Существуют классические способы создания данных Landsat-ARD с высоким пространственным разрешением, но они в основном основаны на классических методах интерполяции и не могут обеспечить такое же качество наблюдений, как данные Sentinel-2.

Подход к глубокому обучению

Мы предлагаем применить машинное обучение и искусственный интеллект для создания синтетических снимков Sentinel-2 на основе снимков Landsat-ARD. Эту проблему можно интерпретировать как преобразование изображения в изображение, и она является общей задачей для моделей машинного обучения. В Computer Vision доказано, что условные генеративно-состязательные сети (cGAN) дают отличные результаты.

GAN обычно состоят из двух независимых сетей, генератора и дискриминатора, которые обучаются друг против друга, чтобы «перехитрить» другую. Генератор учится создавать новые синтетические данные, а дискриминатор учится различать реальные и сгенерированные данные. cGAN является расширением GAN, поскольку генератор зависит от некоторых входных данных. Одним из примеров сетевой архитектуры является улучшенная GAN сверхвысокого разрешения (ESRGAN) [5]. Эта модель принимает на вход изображение с низким разрешением и выводит изображение с высоким разрешением.

Мы показываем, как такую ​​архитектуру ESRGAN можно использовать в качестве модели перевода между двумя источниками-спутниками. В качестве обучающих данных используются наблюдения Landsat-ARD, а в качестве цели — соответствующие наблюдения Sentinel-2. Из-за вычислительной сложности и схожих спектральных свойств транслируются только красный, зеленый, синий и инфракрасный спектральные диапазоны. После обучения модели на глобальном наборе данных мы можем преобразовать любые данные Landsat-ARD в синтетические данные Sentinel-2, в результате чего будут получены изображения временных рядов с высоким пространственным разрешением и большим временным диапазоном.

Существует множество других моделей, которые выполняют преобразование изображения в изображение между различными данными ЭО, например, статьи Song et. др. [6] и Ван и др. др. [7]. Эти модели основаны на самых разных сетевых архитектурах, но многие из них также основаны на cGAN. Однако авторы редко упоминают или применяют результаты к соответствующим вариантам использования, и поэтому очень спорно, можно ли и как можно использовать полученные синтетические данные.

Пример использования: аппроксимация отсутствующих значений

Одним из преимуществ создания синтетических данных ЭО является то, что дефектные области из исходных данных изображения ЭО могут быть исправлены. На спутниковые изображения часто влияют внешние эффекты (например, когда спутник сталкивается с космическим мусором или из-за присутствия обнаруженного облака или тени), что приводит к повреждению пикселей. Однако представленная выше модель преобразования изображения в изображение между двумя спутниками может использоваться для заполнения отсутствующих или поврежденных областей одного спутника синтетическими данными другого.

Анализ долгосрочных тенденций LULC — что можно сделать с такой моделью?

Далее мы демонстрируем реальные сценарии того, как модель можно использовать для наблюдения и количественной оценки изменений в классах LULC за доступный период времени данных Landsat-ARD. Сначала мы применяем модель к небольшим областям, которые четко визуализируют изменения. После этого модель применяется к областям, где произошли крупномасштабные изменения.

Анализ исторического анализа тенденций классов LULC

Чтобы проанализировать долгосрочное развитие области, синтетические данные Sentinel-2 передаются в модель сегментации, которая ранее была обучена на данных Sentinel-2 для создания сегментации зеленой области. Модель сегментации, основанная на архитектуре U-Net, была обучена с использованием классов LULC, определенных в Атласе городов 2018 года [8] для различных европейских городов. Для простоты модель сегментации состоит только из четырех классов: водные, городские, сельскохозяйственные и лесные. Поскольку спутниковые данные сильно зависят от пространственного положения (например, из-за смены домена или различного распределения данных), этот подход к сегментации будет лучше всего работать для регионов внутри Европы.

Затем мы применяем конвейер к историческим данным EO из архива Landsat-ARD, чтобы лучше понять классы LULC и то, как они изменились за последние 25 лет. Это позволяет нам отслеживать и количественно оценивать изменения в исследуемых областях.

Приложение 1: отслеживание вырубки лесов в бразильской Амазонии

На следующем патче показана вырубка лесов на небольшой территории вокруг Сантарена, Бразилия. С 2003 по 2005 годы большие участки лесных массивов были заменены сельскохозяйственными угодьями. До 2018 года эта площадь оставалась примерно постоянной. Начиная с 2018 года мы можем наблюдать дальнейшее расширение сельскохозяйственных угодий, в то время как лесные площади со временем исчезают.

Затем этот подход расширяется для мониторинга крупномасштабной вырубки лесов. Мы показываем пример в Амазонасе.

В предыдущие десятилетия большие площади Амазонки были превращены в сельскохозяйственные угодья. Некоторые из самых больших изменений произошли вокруг Сантарена, Пара в Бразилии. С 1997 по 2020 год относительный процент лесных площадей по всем классам LULC снизился на 20% с 70% до всего лишь 50%.

Приложение 2: отслеживание городских районов

Следующий патч показывает городское расширение области вокруг Фриско, США. Начиная с 2015 года, быстрое крупномасштабное строительство различных зданий и дорог видно и четко представлено на карте сегментации.

Пример: Рим

Распространяя этот подход на более широкие регионы, т.е. Рим, распределение зеленых зон целых городов поддается регистрации и информирует людей о крупномасштабных изменениях. Затем можно ответить на различные вопросы, например: Что было удалено? Как быстро удалили и сколько?

Поскольку Рим не претерпел значительных изменений за последние 25 лет, распределение зеленых зон остается примерно постоянным, и изменения трудно наблюдать. Гораздо интереснее исследовать области, где произошли крупномасштабные изменения.

Пример: Сурат

Увеличение границ городов особенно важно учитывать в развивающихся странах. Во многих городах Азии и Африки в предыдущие десятилетия наблюдался значительный рост городов, связанный с быстро растущим населением. Одним из примеров городской экспансии является Сурат, один из самых быстрорастущих городов Индии. Население Сурата выросло с 2,2 миллиона человек в 1997 году до 7,5 миллиона человек в 2021 году.

Карты сегментации и распределения показаны ниже. Хотя карты сегментации не так последовательны, как для Рима, городское расширение города все еще очень заметно. С 1997 по 2021 год относительный процент городских территорий по всем классам LULC увеличился на 20% с 20% до 45%, в основном в пользу сельскохозяйственных земель.

Перспективы

Эта статья была проблеском того, что может сделать модель перевода между двумя спутниками. Подход можно расширить за счет использования больших наборов данных, охватывающих большую территорию, включая дополнительные каналы с записанных спутников, и внедрения более крупных и глубоких моделей перевода. Другим подходом может быть использование моделей перевода, отличных от ESRGAN, которые учитывают временные шаги, такие как RNN или LSTM. Помимо данных Sentinel-2 и Landsat-ARD, могут быть синтезированы и другие данные EO. Эти EO-данные могут иметь различное пространственное, временное и/или спектральное разрешение и использоваться для множества других приложений. Кроме того, также возможно объединить более двух спутников вместе. Применение нескольких моделей трансляции позволит синтезировать любое количество независимых спутниковых наблюдений.

Благодарности

Эта работа финансируется и поддерживается ESA PhiLab (Европейское космическое агентство) через грант Digital Twin Earth (3-16915/21/I-FvO).

Ссылки

[1] Мультиспектральный прибор SENTINEL-2 (MSI), https://sentinels.copernicus.eu/web/sentinel/user-guides/sentinel-2-msi/overview

[2] ЕКА. Sentinel-2 Миссии-Sentinel Online; ЕКА: Париж, Франция, 2014 г.

[3] Гавилан, Вивиана и др. «Сезонный водный баланс сельскохозяйственных культур с использованием гармонизированных данных временных рядов Landsat-8 и Sentinel-2». Вода 11.11 (2019): 2236.

[4] Потапов, Петр, и др. «Готовые данные Landsat для анализа глобального земного покрова и картирования изменений земного покрова». Дистанционное зондирование 12.3 (2020): 426.

[5] Ван, Синьтао и др. «Эсрган: улучшенные генеративные состязательные сети сверхвысокого разрешения». Материалы семинаров Европейской конференции по компьютерному зрению (ECCV). 2018.

[6] Сонг, Бингзе и др. «MLFF-GAN: многоуровневое слияние функций с GAN для пространственно-временных изображений дистанционного зондирования». Транзакции IEEE по геонаукам и дистанционному зондированию (2022 г.).

[7] Ван, Цзюньвэй и др. «Мультисенсорное дистанционное зондирование изображений сверхвысокого разрешения с условной GAN». Журнал дистанционного зондирования 2021 (2021).

[8] Программа Коперник. Атлас городов. Доступно онлайн: https://land.copernicus.eu/local/urban-atlas.