Что стоит за моделью AgriFieldNet

Интервью с Мухамедом Туо, специалистом по данным и членом команды-победителя AgriFieldNet Data Challenge.

Мы рады представить Мухамеда Туо, специалиста по данным и члена команды-победителя AgriFieldNet India Challenge. Это соревнование было направлено на классификацию типов сельскохозяйственных культур на сельскохозяйственных полях Северной Индии и проводилось на Zindi. Он был организован за счет гранта инициативы Enabling Crop Analytics at Scale (ECAAS), которая финансируется Фондом Билла и Мелинды Гейтс и реализуется Tetra Tech. Конкурс завершился в октябре 2022 года, и 635 участников со всего мира соревновались в создании моделей машинного обучения, которые могут определить местонахождение сельскохозяйственных полей в различных районах четырех штатов Северной Индии: Уттар-Прадеш, Раджастхан, Одиша и Бихар.

После тщательного процесса оценки команда Team Starlink была объявлена победителем, продемонстрировав исключительные навыки в применении машинного обучения к спутниковым данным. Мы имели удовольствие встретиться с Мухамедом, чтобы обсудить его путь к тому, чтобы стать учеными данных, и подход команды к решению проблемы. Другими членами команды являются Тайво Огундаре и Калеб Эмелике. Их выигрышное решение Модель AgriFieldNet для определения типов культур по спутниковым снимкам доступна для загрузки на сайте Radiant MLHub.

Поздравляем с победой в конкурсе AgriFieldNet India Challenge! Что вдохновило вас заняться этой сферой? Как вы заинтересовались машинным обучением? Расскажите нам о своем путешествии по машинному обучению.

У меня есть двойная степень бакалавра математики и компьютерных наук в Университете Париж 12 во Франции, а недавно я получил степень магистра в области больших данных и искусственного интеллекта. Когда я учился на первом курсе, с двумя друзьями у нас была игра, в которой мы бросали себе вызов, чтобы изучить новые технологии и языки программирования. Однажды одному из нас пришла в голову идея принять участие в конкурсе данных на Zindi. Цель состояла в том, чтобы посмотреть, что мы можем сделать и чему научиться за 2 месяца. После этого конкурса мне стало любопытно, и я захотел узнать больше. Оттуда я начал исследовать все, что связано с машинным обучением и ИИ. И я никогда не останавливался.

Откуда вы узнали о конкурсе AgriFieldNet India Challenge и почему решили принять в нем участие?

Я участвую в соревнованиях по машинному обучению уже четыре года на Zindi и Kaggle. Итак, когда я увидел сообщение на Linkedin от аккаунта Radiant Earth о конкурсе, мне стало любопытно, и я начал узнавать больше о вызове и его особенностях. Когда я увидел на странице описания проблемы, что обучающий набор данных сильно несбалансирован, а тестовый набор не соответствует этому распределению, я понял, что это хороший вызов, чтобы проверить свои знания и узнать больше о построении надежной и обобщаемой модели.

Ваш алгоритм победы превзошел 635 команд/индивидуалов. Как вы подошли к этой проблеме и что, по вашему мнению, отличает вас от других?

Мы начали с сравнительного анализа набора многообещающих методов классификации урожая и несбалансированных данных и сократили этот список до наиболее эффективных. Затем мы потратили значительное количество времени на разработку данных. Это была самая важная часть нашего решения. Процесс создания данных занимает около 7 часов. Я считаю, что это то, что в конечном итоге отличает нас от других команд.

Были ли вы знакомы с использованием машинного обучения на спутниковых снимках до этого конкурса? Чем это отличается от обычных проблем компьютерного зрения?

Перед тем, как принять участие в этом конкурсе, мы участвовали в нескольких конкурсах, где нам приходилось работать со спутниковыми снимками, так что да, у нас был некоторый опыт работы со спутниковыми снимками.

Они различаются двумя способами: во-первых, это модели, используемые для решения этих проблем, а во-вторых, входные данные этих моделей. В общих задачах компьютерного зрения модель почти всегда является моделью глубокого обучения (CNN или Transformers), а разница между необработанными и фактическими входными данными минимальна.

Большинство полей были очень маленькими. Таким образом, потребовалось много работы для расчета полевой статистики из-за низкой дисперсии в полевых условиях.

Я считаю, что Твиттер — отличное место, где можно узнать о последних научных исследованиях и методах. Платформы для соревнований, такие как Zindi и Kaggle, также являются отличным местом, где можно быть в курсе лучших методов и алгоритмов, используемых в этой области.

Какой-нибудь совет начинающим специалистам по данным, которые хотят участвовать в соревнованиях по данным?

Я бы предложил присоединиться к конкурсу, который они считают одновременно сложным и захватывающим. Затем загрузите данные и начните играть с ними, чтобы лучше понять проблему. При этом регулярно заходите на форум конкурса и читайте обсуждения, так как они всегда содержат важную информацию. Затем они могут попытаться построить простую базовую модель или даже взять стартовый блокнот и начать с него. Не имеет значения, если ваша модель не так хороша, как у других конкурентов. Цель состоит в том, чтобы иметь отправную точку и продолжать совершенствоваться оттуда.

По окончании конкурса прочитайте описание решения победителей и попытайтесь реализовать большинство выполнимых частей. И, наконец, помните, что это страшно только до тех пор, пока вы не попробуете.

Первоначально опубликовано на https://radiant.earth 6 апреля 2023 г.