В настоящее время я разрабатываю дополнительные функции для своих проектов Инструменты машинного обучения для открытой науки (MLTOS), и одна из основных вещей, которые я хочу сделать, - это интегрировать моделирование распределения видов (для получения дополнительной информации по этой теме я предлагаю вам проверить Вводный раздел Настоящей статьи о природе). Часть моего исследования заключалась в том, чтобы посмотреть, какие решения уже существуют, и я наткнулся на жемчужину под названием Уоллес.

Это приложение использует Shiny для получения доступа к R в качестве серверной части. Это здорово во многих отношениях, поскольку R был довольно популярен в экологических науках и содержит множество пакетов по этой теме, охватывающих все, от получения наборов экологических данных до последующего анализа.

В этой статье я кратко расскажу о функциях, доступных в Wallace. В настоящее время мне не удалось найти руководство (возможно, в разработке?), Поэтому я думаю, что это может быть полезно.

После того, как вы установите приложение (это займет некоторое время, поскольку требуется несколько зависимостей) и запустите его, вы увидите следующий экран в своем браузере:

Пользовательский интерфейс интуитивно понятен и хорошо структурирован. Основное внимание уделяется карте, а на левой панели вы можете работать с данными. Навигация уже обеспечивает хороший обзор рабочего процесса, а последовательность шагов очень полезна. В качестве первого шага мы выбираем, по каким видам мы хотим получить данные. Для этого урока я выбрал евразийскую рысь (Lynx lynx). Запрашивается база данных GBIF, и вы даже можете загрузить данные в виде файла csv, что я также считаю очень полезным. Записи о происшествиях красиво отображаются на карте. Вы также можете вручную проверить данные:

Следующим шагом рабочего процесса является разделение данных. Часто вас интересует просто подмножество области (допустим, у вас есть проблемы с бюджетом, и вы не сможете охватить большую территорию для последующего отбора проб на месте). Интерфейс карты интуитивно понятен. Например, вы можете перетащить многоугольник вокруг достопримечательностей и выбрать их:

Второй набор данных, который вам понадобится для SDM, - это данные об окружающей среде. Для этого также есть стандартные подключения к основным базам данных, таким как Биоклим, которые часто пробуют в первую очередь.

После выбора данных об окружающей среде необходимо выполнить несколько дополнительных шагов, прежде чем вы сможете обучить модель. Один из них - выборка фоновых точек (ваши отрицательные метки / метки отсутствия).

Затем вы можете разделить свой набор данных на разные группы для перекрестной проверки (стандартная процедура машинного обучения). Что действительно круто, так это то, что присутствует метод складного ножа (хорошее математическое описание доступно в этом pdf). Этот метод очень поможет вам в моделировании, когда у вас очень мало точек данных.

И, наконец, вы можете обучить модель и получить численные результаты. Это также стандартные показатели классификации, такие как AUC (площадь под кривой).

Вы также можете показать несколько диагностических графиков, чтобы увидеть, есть ли хорошее разделение между кластерами точек:

Наиболее интересным результатом рабочего процесса SDM является карта прогнозируемой пригодности для исследуемого региона. Если точность вашей модели хорошая, это будет конечный продукт вашего моделирования, и вы можете поделиться им для дальнейшего использования.

Надеюсь, этот урок был полезен. Я призываю вас попробовать Уоллеса. Я думаю, что такое программное обеспечение может значительно помочь, снизив планку необходимых навыков кодирования и, кроме того, обеспечив воспроизводимость научной работы!