Пять критериев подготовки наземных опорных данных для моделей машинного обучения наблюдения за Землей

Автор Йона Бромберг Габер, специалист по геопространственным данным, Radiant Earth Foundation

Приложения машинного обучения (ML) для наблюдения Земли (EO) могут использовать имеющиеся в настоящее время данные, которые собираются с помощью опросов для эмпирических исследований с целью изучения прикладных наук или проведения социально-экономического анализа. Однако высока вероятность того, что эти данные опроса будут неполными. Многие приложения машинного обучения для EO требуют наземных справочных данных, которые представляют собой точные наблюдения за некоторыми свойствами на земле и могут использоваться в качестве метки или описания того, что представляет собой потенциальное изображение над головой.

Конечно, можно удаленно маркировать изображения с помощью онлайн-платформ, таких как OpenStreetMap, но аннотации изображений имеют значительные ограничения. Например, невозможно определить типы культур или урожайность, глядя на изображение, и для этого потребуется сбор справочных данных на земле. Однако сбор наземных данных является дорогостоящим и сложным, и очень важно использовать существующие усилия по сбору данных, такие как опрос, который проводится другими для своих конкретных исследовательских целей. Чтобы это произошло, анкеты обследования должны содержать правильные данные с соответствующей информацией метаданных.

Использование существующих данных

Radiant Earth Foundation благодарен своим партнерам, таким как PlantVillage из Университета штата Пенсильвания, которые предоставили данные, использованные для создания наборов данных для обучения африканских культур, которые теперь доступны на Radiant MLHub. Команда смогла объединить эти данные, а также некоторые данные от других партнеров, со спутниковыми изображениями, полученными в ходе миссии Sentinel 2 Европейского космического агентства, чтобы создать данные по обучению основных культур в Кении, Танзании и Уганде. Radiant Earth извлекла важные уроки об ограничениях сбора данных при рассмотрении потенциальных наборов данных для использования в этом проекте. Такие проблемы, как перекрытие полей культур, неточная классификация или отсутствие даты / времени для записей, затрудняют, а то и делают невозможным использование этих данных для целей машинного обучения.

На основе этого опыта возникла передовая практика Сборник наземных справочных данных и руководство по каталогам. Цель Руководства - побудить сообщество собирать и готовить свои данные, чтобы их можно было использовать для моделирования машинного обучения и повсеместно повысить продуктивность. Как живой документ Radiant Earth приветствует отзывы партнеров по обработке данных, полевых работников и разработчиков машинного обучения для его улучшения.

Кроме того, свяжитесь с нами, если у вас есть данные, которыми вы хотите поделиться, или у вас есть вопросы или предложения по Руководству!

Рекомендации по сбору наземных справочных данных и руководство по каталогу

Radiant Earth определила пять критериев для использования наземных справочных данных в качестве меток при обучении или проверке машинного обучения. У каждого критерия есть как идеальный метод, так и минимальные требования. Идеальный метод сбора должен гарантировать, что собранная информация будет очень полезной, но при этом не обязательно работать как маркированные данные.

Критерий 1. Являются ли данные географическими?

Чтобы использовать данные для обучения, собранные данные должны быть правильно сопоставлены с изображениями. Таким образом, каждая запись (то есть точка данных или строка) должна быть географически конкретной, то есть конкретное значение данных, сопоставленное с определенной геометрией (или, в случае анонимных данных, с одним изображением без географических данных).

В идеале, для таких приложений, как классификация почвенно-растительного покрова или типа сельскохозяйственных культур, по возможности следует включать GPS-трек границы поля, учитывая ограниченные ресурсы сбора данных на полях.

Как минимум, каждая запись должна иметь дискретную и четко определенную геометрию, которая отображается на определенный набор пикселей. Например, полигоны, которые не перекрываются, и точки с установленными буферами приемлемы, а перекрывающиеся полигоны или точки, которые могут относиться к буферу переменного радиуса, - нет.

Критерий 2: Хорошо ли определены и согласованы ли классы?

Данные должны иметь хорошо задокументированное и согласованное определение класса, чтобы пользователи могли легко разрабатывать высококачественные обучающие данные без какой-либо неправильной или ложной метки. Методы, используемые для идентификации каждого класса или измерения значения, должны быть включены в метаданные, чтобы набор данных можно было воспроизвести.

В идеале наборы данных должны соответствовать существующим таксономиям и методологиям, чтобы наборы данных можно было сравнивать и / или комбинировать. Например, схема Рабочая группа ML4GD рекомендуется для классов земного покрова, а URI FAO AGROVAC позволят легко воспроизводить сельскохозяйственные данные.

Подойдет любая другая схема классификации, если она четко определена и задокументирована. Если классы дискретны, то каждая категория должна быть однозначной; если данные являются непрерывными, должна быть обеспечена точность измерения.

Критерий 3. Включены ли необходимые метаданные?

Метаданные предоставляют ценную информацию, чтобы определить, полезен ли набор данных для построения модели машинного обучения. Более того, метаданные можно использовать для обнаружения наборов данных в поисковых системах и API. Таким образом, он должен содержать высокоуровневую информацию о наборах данных, включая пространственный и временной охват данных и тех, кто за это отвечает.

Radiant Earth определила список полей метаданных, необходимых для каждого набора данных, включая дату, систему координат, методы, поля данных / классов, организацию / автора, определения полей данных, цитирование данных и лицензию.

Дополнительные поля метаданных могут включать описание данных, согласие или права, предоставленные для опроса, а также любые другие дополнительные поля.

Критерий 4: Правильно ли лицензированы данные?

Любой набор данных, включая наземные справочные данные, должен быть лицензирован для каждого пользователя, чтобы он мог использовать его в своем приложении или продукте. Чтобы увеличить влияние данных, собранных с земли, Radiant Earth рекомендует, чтобы лицензия на данные была как можно более открытой. Лицензия на открытые данные увеличивает влияние данных за пределы их первоначальной цели и способствует инновациям. Рекомендуемая лицензия на открытые данные - Creative Commons (в частности, CC-BY).

Кроме того, следует учитывать права сборщика данных на собранную информацию. Данные должны передаваться и лицензироваться только практикующими специалистами, имеющими права и разрешения на совместное использование этих данных. Следует учитывать анонимность личности без изменения (или искажения) географического положения данных.

Критерий 5. Правильно ли отформатированы данные?

Для хранения данных может использоваться любой географический формат файла, если он задокументирован и четко определен. Radiant Earth обычно рекомендует формат GeoJSON для векторных данных, который совместим со многими стандартами, прост для передачи и использования и является открытым; другие форматы, такие как Shapefile и CSV, также работают.

Radiant Earth включил образец файла GeoJSON для использования в качестве шаблона для создания наземных справочных данных в репозитории путеводителей.

Отзывы и обсуждения рекомендаций по передовой практике

Radiant Earth приглашает вас оставить отзыв о Руководстве по сбору наземных справочных данных и каталогу на GitHub. Кроме того, Radiant Earth провела виртуальную встречу 21 апреля 2020 года в 10:00. ET за подробный разговор о Руководстве. Посмотреть встречу и обсуждения можно здесь: https://bit.ly/GroundReferenceGuideWebinar

[1] В этой статье «изображение» относится к спутниковым или бортовым изображениям с географической привязкой, если не указано иное.