Медуза Львиная грива (Cyanea capillata), также известная как «гигантская медуза», является самой крупной известной медузой. В последнее время появляется все больше сообщений о том, что люди были ужалены этим видом. Конечно, полезно определить, где находится его среда обитания, чтобы избежать его.

И здесь на помощь может прийти машинное обучение. Основной целью моделирования распределения видов (SDM) является прогнозирование оптимальной среды обитания видов. Все, что нам нужно, это данные о встречаемости (где наблюдался вид) и некоторые предикторы окружающей среды (температура и т. д.). Давайте начнем!

Для получения предикторов мы можем использовать функцию occurence из пакета robis. Для этой функции необходимо научное название вида:

lionsmane_occ <- occurrence("Cyanea capillata")

Следующим шагом является получение климатических переменных. Здесь знание предметной области весьма полезно. Какие данные об окружающей среде важны для определения распространения видов? Например, для наземных животных очень часто ограничивающим фактором является температура — многие виды занимают определенную нишу вдоль температурных градиентов. В случае Львиной гривы мы можем сначала попробовать аналогичный подход и использовать максимальную температуру морского дна. Эти данные можно получить с помощью функции load_layers из sdmpredictors package.

temp.max.bottom <- load_layers("BO2_tempmax_bdmax")

Теперь, когда у нас есть как данные наблюдений, так и связанные переменные среды, мы можем приступить к обучению модели. Хотя существует множество моделей машинного обучения, которые мы можем протестировать (ознакомьтесь с моим пакетом sdmbench, если вы хотите попробовать их в интерактивном блестящем приложении), для целей этого руководства мы будем использовать модель максимальной энтропии (MaxEnt), что является стандартным методом в этой области.

occtrain <- lionsmane_occ %>% select(c("decimalLongitude", "decimalLatitude"))
me <- maxent(temp.max.bottom, occtrain)
px <- predict(temp.max.bottom, me)

Растровый объект px содержит прогнозы, и мы строим его, чтобы увидеть карту:

Булавки показывают наблюдения, а цветовой градиент показывает степень пригодности среды обитания (т. е. вероятность наблюдения этого вида в этих местах выше). Ознакомиться с интерактивной версией карты можно здесь.

Как и в любом проекте машинного обучения, смещения в данных могут повлиять на качество модели. Просто наблюдая за местами появления, мы уже можем видеть, что большинство из них находится в прибрежных районах, предположительно из-за легкости доступа для людей-наблюдателей. Мы всегда должны помнить об этих проблемах при построении экологических моделей.

Тем не менее, этот проект демонстрирует еще одно применение машинного обучения в нашей жизни (и в планировании пляжного отдыха). Если вы хотите узнать больше о SDM, я предлагаю вам взглянуть на отличный Обучающий курс UCL CBER и подписаться на меня в Твиттере, где я регулярно публикую свои исследования и связанный с ними контент.