Разговор о демократизации обучающих данных ЭО и моделей машинного обучения для предоставления приложений, которые могут позволить глобальному сообществу разработчиков достичь Целей устойчивого развития.

Мы рады представить доктора Хамеда Алемохаммада, главного специалиста по обработке и анализу данных фонда Radiant Earth. Доктор Алемохаммад является техническим руководителем и исследователем с обширным опытом и знаниями в области методов дистанционного зондирования и визуализации, а также статистических моделей и моделей машинного обучения (МО) для анализа геопространственных данных и больших данных. Имея подтвержденный опыт разработки новых алгоритмов многоспектральных спутниковых и бортовых наблюдений и их анализа для получения практических выводов, он возглавляет открытый репозиторий Radiant MLHub для обучения данных наблюдения Земли (EO) и моделей машинного обучения.

Radiant MLHub демократизирует данные и модели машинного обучения и диверсифицирует приложения ЭО. По своей сути Radiant MLHub предоставляет концентратор с открытым исходным кодом для обнаружения и доступа к тематическим обучающим данным и моделям, которые необходимы для инноваций для устойчивого развития во всем мире. Шаги, необходимые для достижения Radiant MLHub, требуют развития инфраструктуры и постоянных усилий всего сообщества по агрегированию наземных эталонных данных и аннотированию изображений с помощью меток, а также созданию моделей для различных приложений.

В этом вопросе и ответе д-р Алемохаммад рассказывает нам о демократизации обучающих данных ЭО и моделей машинного обучения для предоставления приложений, которые могут позволить глобальному сообществу разработчиков достичь Целей устойчивого развития (ЦУР).

«Сила машинного обучения заключается в эффективном «обучении» на примерах. Следовательно, предоставляя репрезентативный набор примеров (т. е. данные для обучения), мы можем создавать модели и запускать их в масштабе. Однако это обучение имеет свою цену. . ».

Расскажите о себе? Что побудило вас заняться дистанционным зондированием и машинным обучением?

Я родился и вырос в Иране. Я решил изучать гражданское строительство в колледже, так как мне не терпелось узнать больше о картографировании и пространственной аналитике. Между тем, я вырос в полузасушливом регионе мира и лично столкнулся с проблемами, связанными с водой и окружающей средой, и я страстно желал изменить привычную парадигму ведения бизнеса.

Во время учебы в магистратуре я начал использовать данные дистанционного зондирования миссии НАСА под названием GRACE для мониторинга временной динамики водного баланса в речном бассейне. Возможность постоянно использовать один инструмент в пространстве и времени для мониторинга окружающей среды вдохновила меня на продолжение обучения в области дистанционного зондирования. Меня приняли в докторантуру. в Массачусетском технологическом институте (MIT) и сосредоточил свои исследования на количественной оценке неопределенностей, связанных с наблюдениями, основанными на дистанционном зондировании. Мне пришлось объединить данные с 8 различных приборов для измерения осадков и использовать множество статистических методов, таких как байесовская оценка и обработка изображений. Я помню, что нам пришлось купить два жестких диска по 6 ТБ, чтобы хранить все данные, необходимые для моего исследования (облачные платформы не были распространены в начале 2010 года, и все данные ДЗЗ, кроме Landsat, тогда были доступны только на FTP-серверах) . Я был очарован объемом данных, регулярно собираемых этими спутниками, и решил пройти факультативные курсы информатики в Массачусетском технологическом институте, чтобы узнать о компьютерном зрении и методах машинного обучения, а также о том, как мы можем применить их к изображениям дистанционного зондирования в крупный масштаб.

Короче говоря, с тех пор я все больше и больше сосредотачивался на создании моделей и инструментов, которые используют спутниковые снимки в качестве исходных данных для вывода различных переменных окружающей среды, от влажности почвы до осадков и глобального фотосинтеза.

И ML, и EO являются специализированными областями, которые по отдельности могут давать впечатляющие результаты. Почему необходимо совмещать два сектора? Чего надеется достичь Фонд «Сияющая Земля»?

Я считаю ML и EO двумя взаимодополняющими областями. ЭЗ позволили нам регулярно следить за нашей планетой и на разных спектральных частотах. Эти данные являются ключом к пониманию того, как различные элементы земной системы взаимодействуют друг с другом, от эвапотранспирации сельскохозяйственных культур до крупномасштабных тайфунов. Что еще более важно, согласованность этих наблюдений помогает нам понять естественные и антропогенные изменения на Земле, которые, в свою очередь, являются важными данными для поддержки политиков в реализации программ, смягчающих пагубные последствия изменения климата.

ML, с другой стороны, позволяет нам создавать новые приложения и модели из EO, которые было бы невозможно или очень сложно создать с использованием традиционных физических моделей. Они также дополняют физические модели и обеспечивают более быстрый и эффективный способ прогнозирования многих переменных и характеристик Земли.

Сила ML заключается в эффективном «обучении» на примерах. Следовательно, предоставляя репрезентативный набор примеров (т. е. данные для обучения), мы можем создавать модели и запускать их в масштабе. Однако это обучение имеет свою цену. Модели машинного обучения не смогут точно расширить свои прогнозы за пределы примеров, с которыми они столкнулись. Например, если обучающим данным не хватает инклюзивности или они имеют низкое качество, можно получить неточные или предвзятые прогнозы. Анализ и понимание результатов также очень важны, чего можно избежать с помощью наземной привязки.

Целью Radiant Earth является расширение сферы применения машинного обучения для EO путем облегчения сбора и обмена учебными данными и инструментами. Это позволит пользователям по всему миру использовать спутниковые снимки и решать проблемы развития в своем регионе.

Какие данные EO и модели машинного обучения сейчас создает Radiant Earth Foundation? Почему вы решили сосредоточиться на них в первую очередь?

В настоящее время мы создаем два набора обучающих данных: 1) глобально репрезентативный набор обучающих данных по классификации земного покрова с использованием мультиспектральных данных Sentinel-2 и 2) типы сельскохозяйственных культур в Африке. Причина, по которой мы выбрали эти два приложения, заключалась в их важности для достижения Целей устойчивого развития (ЦУР). Информация о земном покрове является вкладом в 14 из 17 ЦУР, а производительность сельского хозяйства касается 10 из 17 ЦУР. Эти цели подчеркивают необходимость точной и согласованной глобальной информации для этих приложений.

Наша команда также работает над созданием моделей машинного обучения для классификации типов культур с использованием данных Sentinel-2 и Sentinel-1, а также над мониторингом поверхностных вод с использованием данных Sentinel-1. Использование данных радара Sentinel-1 имеет решающее значение, поскольку получение безоблачных данных от Sentinel-2 очень маловероятно в тропических и влажных регионах мира.

Проблемы, связанные с отсутствием георазнообразных данных, являются предметом многочисленных дискуссий, и вы также отметили это в своей недавней статье «Георазнообразные открытые обучающие данные как глобальное общественное благо». Основываясь на различных исследованиях, мы знаем, что работа с географически неполными данными (смещенными в сторону Глобального Севера) может привести к предвзятым или даже ложным результатам. Что делает Radiant Earth, чтобы решить эту проблему?

Миссия Radiant MLHub — решить эту проблему. Во-первых, мы сосредоточены на создании обучающих наборов данных, которые имеют глобальное представление; например, обучающие данные о земном покрове, которые мы в настоящее время собираем. Мы используем подход к совместной работе с данными для определения и создания обучающих наборов данных в Radiant Earth. Мы начинаем с обширного обзора литературы, за которым следуют обсуждения в группах экспертов, чтобы учесть потребности и мнения сообщества, прежде чем создавать набор данных.

Во-вторых, мы размещаем и регистрируем существующие обучающие наборы данных на Radiant MLHub. Этот процесс помогает нам отображать плотность каталогов обучающих данных в пространстве. Используя эту информацию, мы можем затем определить регионы, в которых отсутствуют качественные данные, и привлечь ресурсы для заполнения пробелов в этих регионах.

Наконец, я считаю, что недостаточная осведомленность о ценности этих обучающих наборов данных была причиной того, что большие объемы наземных данных не использовались в качестве общественного блага. Поэтому мы активно работаем над повышением осведомленности об этой проблеме в более широком сообществе, от технических разработчиков до менеджеров и спонсоров. Наша цель — помочь сообществу документировать и публиковать свои данные, чтобы они могли извлечь из них максимальную пользу.

Другие организации сосредоточены на создании моделей машинного обучения. Чем отличается Radiant Earth?

Будучи некоммерческой организацией, Radiant Earth Foundation представляет собой независимую группу, которая объединяет нетрадиционных участников для укрепления инновационных решений глобальных проблем. Мы тесно сотрудничаем с межотраслевыми организациями, участвующими в глобальном развитии, чтобы способствовать сотрудничеству и использовать инвестиции в ЭО в области машинного обучения для получения более открытых, но надежных, точных и разнообразных данных и инструментов для обучения.

Более того, мы неоднократно собираем ученых и практиков данных ЭО как в государственном, так и в частном секторах для разработки и принятия контрольных показателей и стандартов для улучшения приложений МО в ЭО. Эти виды деятельности являются важным отличием от других. Конечно, существует множество социальных организаций и компаний, которые также внедряют инновации в этой области, и нам посчастливилось сотрудничать с ними.

Я считаю, что наш открытый и совместный подход является жизненно важным компонентом для принятия надежных, высококачественных данных и моделей машинного обучения национальными, региональными и местными организациями по всему миру.

«Radiant Earth стремится дать возможность организациям, компаниям, правительствам и группам, работающим над решением проблем в развивающихся странах, внедрять решения ML, основанные на EO, и совершать скачок в новую эру цифровой революции».

Radiant MLHub стремится собирать высококачественные модели EO и ML для поддержки глобальных проблем развития и усилий по смягчению последствий для политиков. Насколько изменится глобальное развитие через десять лет, когда мы достигнем этой цели?

Мы представляем себе сообщество практиков, которые активно используют модели EO и ML и регулярно, а не только в пилотных проектах, предоставляют информацию о глобальных проблемах развития политикам на национальном и международном уровнях. Эти приложения будут создаваться и проверяться на основе контрольных показателей, принятых сообществом, и будут соответствовать стандартам для устранения неопределенностей в прогнозах моделей. Такая экосистема по своей сути обеспечит прозрачность приложений машинного обучения и будет способствовать более широкому внедрению этих решений.

Глобальное сообщество разработчиков станет важной частью этой экосистемы, внося свой вклад в ее решения и принимая новые для продвижения к устойчивому использованию и управлению ресурсами. В 1998 году Николас Негропонте, соучредитель MIT Media Lab, написал в первом номере WIRED, что Третий должен быть первым. Точно так же Radiant Earth направлена ​​​​на то, чтобы дать возможность организациям, компаниям, правительствам и группам, работающим над решением проблем в развивающихся странах, принять решения ML, основанные на EO, и совершить скачок в новую эру цифровой революции.