Я анализирую данные STATS19 о дорожно-транспортных происшествиях, которые, к счастью, предоставлены общественности правительством Великобритании. Я хотел бы посмотреть, насколько сгруппированы различные типы несчастных случаев. «Функция G» (описанная здесь) может использоваться для измерения отклонение точечных паттернов от случаев полной пространственной случайности «CSR».
spatstat хорошо справляется с подобными проблемами с помощью функции envelope
. обеспечение визуализации степени отклонения паттерна от CSR на разных расстояниях.
Однако, как указал мой коллега Дэн Олнер, результаты (показанные ниже, демонстрирующие большое расхождение с CSR) не обязательно отражают кластеризацию - это может быть просто то, что мы обнаруживаем естественную кластеризацию дорожной сети, на которой большинство дорог случаются несчастные случаи. Приведенный ниже график можно воспроизвести путем клонирования моего репозитория GitHub и выполнения следующего (после запуска частей WY. Р):
r <- seq(0, sqrt(2)/6, by = 0.005)
acB1 <- elide(acB, scale = TRUE)
# acB1 <- acB1[1:50,] # for tiny subset
acB1 <- SpatialPoints(acB1)
# Calculate the G function for the points
envacB <- envelope(as(acB1, "ppp"), fun = Gest)
# Calculate the G function for the points
plot(envacB)
Эта проблема фактически описана самим Адрианом Баддели (разработчиком spatstat) в документация по пакету:
точки могут быть местоположениями в одном измерении (например, дорожно-транспортные происшествия, зарегистрированные в дорожной сети)
Это именно та ситуация, с которой я столкнулся, но я не знаю, как изменить анализ, представленный выше, чтобы ограничить CSR (или, лучше, близко - поскольку не все аварии происходят именно на дороге - см. Ниже) дорожной сети. (см. данные здесь).
Одно из предложений заключалось в том, чтобы взять случайные точки из дорожной сети, вычислить для этого функцию G и сравнить ее с моими данными о дорожно-транспортных происшествиях, но это не привело бы к созданию четкой (статистически значимой) ограничивающей рамки. Какие-либо предложения?