Случайные классификаторы лесов с показателем точности 99% для обнаружения изменений окружающей среды после принудительного перемещения.

Эта работа является частью задачи ИИ Омдены в партнерстве с Агентством ООН по делам беженцев. Цель заключалась в том, чтобы понять, есть ли какая-либо взаимосвязь между климатическими аномалиями, перемещением населения и человеческим конфликтом в Сомали, используя спутниковые снимки.

Сводка результатов

Используя изображения Landsat 8 с классификатором случайных лесов, мы достигли показателя точности 99% при обнаружении изменений окружающей среды в результате принудительного перемещения в Сомали. Мы показываем, что с помощью спутниковых снимков Сомали модели классификации изображений могут изобразить влияние принудительного перемещения в результате насильственного конфликта на окружающую среду в результате внутренней перемещенной деятельности человека.

Наблюдение за развитием войн и конфликтов, за ущербом, который они наносят по различным аспектам, таким как окружающая среда и инфраструктура, а также за масштабом гуманитарного кризиса, к которому они приводят, может быть сложной задачей, учитывая опасность, которую они представляют для пребывания в площадка для сбора данных.

Спутниковые снимки - это ключевой источник информации, позволяющий отслеживать и отображать развитие и влияние конфликтов без рисков и затрат, связанных с пребыванием людей на местах.

Сомали - одно из таких мест, где спутниковые снимки полезны для оценки воздействия конфликта с течением времени, чтобы проверить потенциальный ущерб. Последние пару десятилетий Сомали страдает от конфликта.

Данные

Каждая из собранных Landsat 8 изображений района Банадир имеет по 8 полос. В период с 2016 по 2017 год в Банадирском районе было самое большое количество прибывших в результате конфликта и засухи. Изображения Landsat 8 можно легко получить из нескольких источников, таких как USGS EarthExplorer.

Все 8 диапазонов были использованы для разработки функций. Обучающее изображение LC08-L1TP-163058–20150118–20170414–01 было сделано 18.01.2015. Он был выбран из-за низкой облачности. Облака затрудняют моделирование классификации спутниковых изображений. Действительно, даже с порогом облачности в 10% за период с 2008 по 2019 год для Банадир Сомали было создано всего около 23 изображений. Помимо низкой облачности, изображение было рассмотрено для обучения, поскольку в 2015 году была относительная стабильность и меньше конфликтов в Сомали.

Тестовое изображение LC08-L1TP-163058–20170107–20170312–01-T1, сделано 01–07–2017. Он был выбран потому, что 2017 год был вторым наиболее конфликтным месяцем за последнее десятилетие после 2013 года в Сомали.

Контролируемая классификация

Для контролируемой классификации требуется достоверная информация или ярлыки. Шейп-файлы из OpenStreetMap были удобны в предоставлении достоверной информации. Ярлыки для тренинга были взяты из Open Street Maps, который предоставляет краудсорсинговые данные о землепользовании. Мы использовали шейп-файл Могадишо, столицы Сомали, который находится в регионе Банадир. Этикетки были хлопотными и требовали предварительной обработки. Открытые данные об улицах Могадишо содержали 7 классов: здания, землепользование, водные пути, железные дороги, точки, природа, точки и дороги. Данные шейп-файла в основном состоят из зданий, на которые приходится около 93% данных класса, на землепользование - на 6%, а на остальные - менее 1%. Это может привести к чрезмерной классификации других классов как зданий.

Во время классификации, чтобы устранить несбалансированность классов, землепользование и другие обозначения интерполируются как область, не обозначенная как здание. Обучение проводилось на небольшой части изображения, вырезанной из всей сцены, и сравнивалось с остальными.

Классификация со случайными лесами

Исследовательский анализ показал, что спектральные сигнатуры каждого класса легко отделимы и различимы. Фактически это было основой для использования традиционной модели машинного обучения, такой как случайные леса.

Основные этапы подготовки данных и моделирования

· Создайте объект набора данных, содержащий все каналы, создайте маску и извлеките значения пикселей для получения геопространственных полигонов.

· Обрежьте изображение, чтобы уменьшить вычислительную нагрузку. Фактические изображения без обрезки были размером 7321 на 7431 пикселей.

· Вычислить пиксели растра, как указано в шейп-файле.

· Перепроецируйте шейп-файлы на широту и долготу растровых данных

· Обучите модель на обрезанных данных с помощью случайных лесов.

· Предсказание меток на обрезанных данных

· Прогноз для остальной части изображения

Результаты

Мы достигли 99% точности прогнозов для обоих классов. Матрица путаницы здесь показывает, что только несколько пикселей были классифицированы неправильно.

Визуализация классификации

Здесь мы показываем результат визуализации классификации рядом с RGB-изображением сцены. Изображение в левом столбце представляет классификацию обученных изображений, а правое - классификацию тестовых изображений. Это сравнение необходимо, чтобы увидеть, есть ли изменения с течением времени.

Коричневый цветовой код представляет здания, а зеленый - землепользование.

Ясно, что во время конфликта усилилось давление с целью использования земли под жилье. Это имеет смысл, потому что во время конфликтов люди переезжают в городские центры, такие как Могадишо. По данным ООН, большинство внутренне перемещенных сомалийцев оказываются в Могадишо (область Банадир).

Влияние на зеленые пояса города очевидно. Кроме того, можно утверждать, что засуха является причиной стольких прибытий в Банадир. Исследовательский анализ данных другой целевой группы, участвовавшей в испытании, показал, что большинство людей, прибывших в Банадир, прибыли из Нижней Шабелле.

Основные причины отъезда в Шабелле - засуха и конфликты.

Дальнейший анализ с использованием Нормализованного разностного водного индекса (NDWI) и NDVI выявил еще более интересные закономерности. NDWI похож на NDVI, но для определения воды. Районы с высоким коэффициентом NDWI обычно классифицируются как водные, а районы с высоким индексом NDVI - это растительность. Ясно, что в период с 2015 по 2017 год наблюдается некоторое снижение NDWI. Это может означать либо повышенный спрос на водные ресурсы в результате прибытия внутренне перемещенных лиц, либо истощение рек.

Проверка неконтролируемой классификации

Кроме того, мы выполнили неконтролируемый алгоритм классификации, кластеризацию k-средних. Выбор оптимального количества кластеров все еще является предметом исследования, но в этой задаче мы выбрали количество кластеров равным 5.

Приведенные ниже результаты показывают, что кластеризация K-средних позволяет хорошо различать здания так же, как и подход контролируемой классификации. Но контролируемый лучше с некоторой настройкой. Однако ясно, что кластеризация может уверенно маркировать один или несколько кластеров, и они могут использоваться в качестве помеченных пикселей для создания набора обучающих данных для контролируемого моделирования классификации для областей в Сомали, которые не имеют достоверной информации. Действительно, на OpenStreetMaps нанесено на карту менее 10% территории Сомали.

Выводы из этой задачи

В этой задаче мы смогли использовать классификацию изображений Сомали Landsat 8, чтобы показать влияние вынужденного перемещения в результате насильственного конфликта на окружающую среду в результате внутренней деятельности перемещенных людей. Улучшения в этом исследовании позволяют понять дальнейшие взаимосвязи аспектов перемещения, климатических аномалий и конфликтов в других регионах. Было бы интересно изучить регионы самого крупного выезда, такие как Шабелле. Еще одна область улучшения - маркировка.

Мой опыт работы с Омденой

Я взял перерыв в повседневной работе по анализу данных в ЮНИСЕФ, чтобы заняться другими делами. Друг прислал мне ссылку на испытания Omdena AI. Меня приняли в Omdena AI за их социальную программу. Моя первая задача с Омденой в сотрудничестве с Агентством по делам беженцев УВКБ ООН заключалась в количественной оценке влияния климатических аномалий на перемещение населения и конфликты между людьми с использованием спутниковых снимков и других источников данных. Мой опыт обработки и анализа изображений был в основном в секторе здравоохранения, изображения которого не превышают 100 000 пикселей. Здесь я имел дело с изображениями с более чем 50 миллионами пикселей.

Это было очень интересное путешествие, и я доволен своим первым результатом. Встречи с таким большим количеством сотрудников из разных стран и разных мест, работающих над одной задачей в семье, были очень полезными. Независимо от того, насколько опытен или квалифицирован в области ИИ, вы всегда узнаете что-то новое от этой семьи сотрудников, работающих на благо общества.

Хотите стать сотрудником Omdena и присоединиться к одному из наших сложных испытаний AI for Good, подайте заявку здесь.