Создание глобального набора данных по обучению при поддержке социальных инициатив и устойчивых практик

Автор Хамед Алемохаммад, исполнительный директор и главный научный сотрудник Radiant Earth Foundation

Маркировка спутниковых изображений - это процесс применения тегов к сценам для предоставления контекста или подтверждения информации. Эти помеченные наборы обучающих данных составляют основу алгоритмов машинного обучения (ML). Обязательство по маркировке (во многих случаях) требует, чтобы люди тщательно и вручную присваивали подписи к данным, позволяя модели изучать закономерности и оценивать их для других наблюдений.

Для широкого спектра приложений наблюдения Земли метки обучающих данных могут быть созданы путем аннотирования спутниковых изображений. Изображения можно классифицировать, чтобы идентифицировать все изображение как класс (например, водный объект) или для определенных объектов на спутниковом изображении. Однако задачи аннотации могут идентифицировать только те объекты, которые наблюдаются на изображениях. Например, с изображениями Sentinel-2 с пространственным разрешением 10 метров невозможно обнаружить более подробные представляющие интерес особенности, такие как типы культур, но можно будет отличить большие пахотные земли от других классов земного покрова.

Человеческая ошибка при маркировке неизбежна и приводит к неточностям и ошибкам в окончательной этикетке. В результате лучше всего изучить изображения несколько раз, а затем присвоить метку большинства или консенсуса. В целом, для крупномасштабного аннотирования изображений требуются значительные человеческие ресурсы и финансовые вложения.

В 2018 году мы определили потребность в географически разнесенном наборе обучающих данных по классификации земного покрова, который требовал бы аннотации и проверки этикеток человеком. Мы предложили Schmidt Futures проект по созданию такого набора данных для продвижения классификации земного покрова во всем мире. В этом сообщении блога мы обсуждаем то, что мы узнали, разрабатывая LandCoverNet, в том числе ключи к созданию этикеток хорошего качества в социально ответственной манере.

LandCoverNet: набор учебных данных по глобальной классификации земного покрова

LandCoverNet - это первый набор обучающих данных по глобальной классификации земного покрова, основанный на изображениях Sentinel-2, которые (будут) содержать метки со всех континентов и учитывать ошибки в маркировке. На экспертном семинаре мы собрали экспертов по машинному обучению и области земного покрова, чтобы определить особенности этого набора данных, и одной из рекомендаций было включение неопределенности метки в окончательный набор данных.

Снимки Sentinel-2 имеют пространственное разрешение 10 м, и некоторые классы земного покрова трудно идентифицировать при этом разрешении, что приводит к ошибке человеческого суждения. Благодаря советам экспертов сообщества и успеху алгоритма консенсуса, разработанного нашим соавтором Prof. Линдон Эстес , мы решили трижды пометить каждый чип изображения независимыми пользователями. Это превращается в трудоемкую кампанию по маркировке, для которой требуется большая и преданная команда для маркировки данных. Наша цель: обеспечить, чтобы такая кампания проводилась с социальным воздействием и ответственно. Так мы познакомились с командой TaQadam.

TaQadam

TaQadam - это социальное предприятие, ориентированное на создание цифровой экономики в постконфликтных районах, с привлечением в первую очередь перемещенных лиц и принимающих сообществ. Их команда полностью удалена, работает над мобильным и веб-программным обеспечением из дома в составе группы и / или команды.

Команда TaQadam работала над многими проектами геопространственной маркировки, включая сегментацию изображений, обнаружение объектов и классификацию изображений. В то время как нашей задачей была сегментация изображений, использование Sentinel-2 с пространственным разрешением 10 м было для них новым.

TaQadam собрал команду из 35 комментаторов из разных стран, включая сирийцев и сирийских палестинцев, а также представителей разных общин в самом Ливане. Они окончили курсы по цифровой экономике в Acted, World Food Program и Digital Opportunity Trust. В основном это средние школы, профессиональные училища (профессиональный цифровой курс считается одним из них) или студенты университетов, живущие в Бейруте и некоторых районах за пределами столицы, которые ищут такие возможности вне рамок полной занятости.

Команда Radiant создала учебные пособия и документацию, чтобы научить группу интерпретировать классы земного покрова на снимках Sentinel-2. Мы также провели для них онлайн-тренинг по использованию панели аннотаций. После этого мы провели пилотную кампанию, чтобы ознакомить команду TaQadam с данными и различными проблемами, которые могут возникнуть.

Первый выпуск LandCoverNet

LandCoverNet V1.0, охватывающий африканский континент, был выпущен летом 2020 года. Для этой версии команда TaQadam пометила более 380 000 чипов изображений с 7 классами земного покрова. Результирующий набор данных содержит около 130 миллионов меток пикселей и согласованные оценки.

На протяжении всей кампании мы также называли набор изображений в нашей команде «ярлыками экспертов». Используя эти экспертные метки, мы оценили точность меток от аннотаторов и предоставили им средний балл точности, чтобы улучшить принятие ими решений при выборе конкретных классов. Им также поделились примерами сложных занятий в качестве примеров использования, чтобы узнать о свойствах различных типов земного покрова. Такой подход помог устранить человеческие ошибки в процессе аннотации, что привело к созданию качественных этикеток, которые точно отражают и отображают различные типы глобального земного покрова.

Далее, LandCoverNet South America

В настоящее время мы работаем с аннотаторами, чтобы маркировать чипы в Южной Америке. Хотя он меньше, чем в Африке, он по-прежнему требует маркировки 230 000 чипов. Этот набор данных планируется выпустить летом 2021 года. При поддержке нашего соглашения о сотрудничестве с NASA Earth Science Data Systems (ESDS) мы расширим набор данных, чтобы он стал сочетанием Sentinel-2, Sentinel-1 и Landsat 8 с метками. происходит от Sentinel-2.

В связи с воздействием COVID-19 и ограничениями по всему миру команда TaQadam продолжила работу, поскольку команда полностью удалена. Мы надеемся на продолжение сотрудничества с ними и расширение каталога данных Radiant MLHub.