Разделение нюансов стадий роста культур в течение сезона

Этот пост входит в серию блогов, связанных с нашей работой в области мониторинга территорий. Мы решили открыто поделиться своими знаниями по этому вопросу, так как считаем, что необходимо обсуждение и сравнение подходов между всеми участвующими в нем группами. Мы будем приветствовать любые отзывы, идеи и извлеченные уроки. Для тех, кто хочет сделать это публично, мы будем рады разместить их здесь.

Содержание:

Маркер типа культуры назначает каждую интересующую функцию (FOI) группе типов культур с помощью обученной модели машинного обучения (ML). Декларации фермера обычно состоят из сотен различных типов культур, которые сгруппированы в зависимости от их свойств, таких как фенология сельскохозяйственных культур, методы ведения сельского хозяйства и т. Д. Группирование типов культур по группам культур может и должно также учитывать бизнес-цели. Здесь представлены результаты использования маркера типа культур, обученного классифицировать FOI в Словении по восемнадцати различным группам культур.

Справочные данные

Набор данных Slovenian Geospatial Aid Application (GSAA) за 2017, 2018 и 2019 годы был использован в качестве источника великой истины. Эти наборы данных обычно содержат около 800000 FOI, каждый из которых содержит основную культуру, выращиваемую в течение объявленного вегетационного периода. Словенские наборы данных состоят из почти 200 различных типов сельскохозяйственных культур, которые сгруппированы по луга, залежи, гороха, хмеля, травы, озимого рапса, кукурузы, озимых злаков, готовых бобовых и / или травяных смесей, тыквы, овощей, гречихи, картофеля, виноградников. , соя, фруктовые сады и прочее.

Модель

Модель типа культуры - это рекуррентная нейронная сеть с долгосрочной краткосрочной памятью (LSTM). Преимущества LSTM в домене EO были изучены в значительной степени (например, в Набор данных спутникового временного ряда для идентификации типа сельскохозяйственных культур и Самовнимание для классификации необработанных оптических спутниковых временных рядов) и было показано, что он обеспечивает состояние - ультрасовременные результаты. Модель LSTM может принимать необработанные необработанные временные ряды EO в качестве входных данных и не требует облачной фильтрации. Временная передискретизация в фиксированную временную сетку также не требуется. Результаты, представленные ниже, показывают, что модели типа культур LSTM можно обобщать по годам - ​​модель, обученная в прошлые годы, может использоваться для передачи знаний в целевой год. Это приводит к лучшей производительности по сравнению с моделями, обученными только на данных целевого года. Кроме того, для получения результатов, близких к оптимальным, требуется меньше данных обучения за целевой год.

Наборы для обучения и тестирования построены путем разделения Словении на сетку с размером ячейки около 10 км x 10 км, как показано на рисунке ниже. Клетки случайным образом делили на обучающие и проверочные (тестовые) клетки. Все FOI (не показаны) из синих (красных) ячеек являются частью обучающего (тестового) набора. Учебные (тестовые) наборы состоят из около 300000 (100000) FOI в год.

Входные характеристики - это временные ряды всех 13 полос Sentinel-2 без какой-либо облачной фильтрации или временной передискретизации. Чтобы получить временные ряды фиксированной длины, необходимые для обучения методов глубокого обучения с помощью пакетов, было решено случайным образом подвыборку каждого временного ряда с фиксированной длиной 45 наблюдений для моделей глубокого обучения при сохранении последовательной топологии. В случаях, когда в FOI всего менее 45 наблюдений, берутся все наблюдения, а временной ряд дополняется постоянным значением.

результаты и обсуждение

Наилучший результат на 2019 год мы получаем, настраивая предварительно обученную модель на данных за 2017 и 2018 годы. Точность, отзывчивость, оценка f1 и поддержка для каждого класса приведены в таблице ниже, как оценено на независимом тестовом наборе FOI из географически независимых регионов. Общая точность составила 89,7%.

На рисунке ниже показана матрица неточностей для наиболее эффективной модели.

Одно из самых больших преимуществ нейронных сетей - возможность их тонкой настройки. На практике это означает обучение модели на наборе данных A в надежде, что она изучит представление, зависящее от предметной области, а затем точную настройку и применение модели к набору данных B. В процессе тонкой настройки можно регулировать даже скорость обучения различных слоев и, в свою очередь, контролируется, насколько могут изменяться параметры низкого или высокого уровня.

На приведенном ниже рисунке показаны преимущества обучения модели в разные годы (2017 и 2018) с последующей ее точной настройкой на данных за целевой год (2019). Тонкая настройка была проведена с различными объемами данных с 2019 года, чтобы понять, как производительность зависит от размера обучающего набора данных. Для сравнения также показана производительность модели, обученной с нуля только на данных за 2019 год.

На рисунке показано, что точная настройка приводит к более эффективным моделям для всех размеров обучающей выборки. Производительность модели, обученной с нуля на всех обучающих данных, может быть превзойдена предварительно обученной моделью, которая настроена только с несколькими процентами FOI с 2019 года. Тонкая настройка предварительно обученной модели имеет наибольшие влияние на менее частые занятия, как показано на рисунках ниже.

Недавно была обучена другая модель для классификации FOI по двадцати различным группам культур. Эта группировка больше соответствует целям контроля общей сельскохозяйственной политики, но также учитывает фенологические свойства сельскохозяйственных культур. Наибольшие различия по отношению к вышеуказанной группировке заключаются в следующем: многолетние культуры (сады, хмель, виноградники) удаляются, и все типы культур, составляющие группу другие, назначаются своей группе. Модель, обученная с нуля только на наборе данных 2019 года с использованием этой группировки, достигает общей точности 93,9%. Матрица неточностей этой модели показана на рисунке ниже. Эти результаты показывают, насколько важно правильно сгруппировать типы культур.

Наши исследования в этой области любезно поддержаны грантами и ноу-хау нашего сотрудничества в проектах Horizon 2020 (Perceptive Sentinel, NIVA, Dione) и ESA (Sen4CAP).