Пример того, как искусственный интеллект и прогнозный анализ могут помочь в более быстром восстановлении повреждений после землетрясения

В апреле 2015 года в Непале произошло мощное землетрясение с магнитудой 7,8 МВт или 8,1 МВт и максимальной интенсивностью Меркалли VIII (серьезное). Согласно порталу открытых данных Непала, оно затронуло 3 677 173 человек и 762106 объектов недвижимости. Непалу потребовались годы, чтобы собрать и оценить ущерб, что, по сути, привело к одним из крупнейших в мире данных по оценке ущерба. После крупномасштабного стихийного бедствия, такого как землетрясение, восстановление обычно моделируется за два фазы

  1. Сбор демографических, архитектурных и юридических данных
  2. Оценка ущерба экспертами в предметной области с использованием этих крупномасштабных и зашумленных данных

Основываясь на аспектах расположения зданий и конструкции, наша цель - спрогнозировать уровень ущерба, нанесенного зданиям в результате землетрясения 2015 года в Горкхе в Непале.

Как выглядят данные?

В этом тематическом исследовании мы использовали структурные данные, данные о собственности и повреждениях, чтобы подготовить наборы данных для поездов и испытаний. Необработанные данные получены из портала открытых данных, Непал. Если вы хотите использовать мои предустановленные данные, вы можете получить их по ссылке ниже (раздел Конечные примечания). Теперь давайте подробнее рассмотрим очищенные данные.

Данные несбалансированы с 60% «высокой» степенью повреждения, 22% «низкой» степенью повреждения и 18% «средней» степенью повреждения. Для работы с несбалансированными данными они отбираются вручную. Из начальных очищенных 700k данных 100k данных была произведена выборка каждого класса и подготовлен обучающий набор из 300 тыс. точек данных для обучения. Для подготовки окончательного набора данных для обучения, тестирования и валидации использовалась стратифицированная выборка. Очень немногие точки данных содержали пропущенные значения (

Возраст - фактор?

Наш окончательный набор данных имеет 41 измерение. Наши независимые переменные могут быть числовыми, категориальными или двоичными. Мы проанализировали числовые и категориальные переменные, чтобы получить представление о данных. Например, давайте сделаем снимок того, как развивались здания за последние 10 лет. были затронуты

Интересно, что есть объекты, возраст которых превышает 950 лет! Это выбросы? Согласно Википедии, в Непале есть несколько объектов недвижимости, которые на самом деле настолько стары. По нашим данным, это 2521.

Показатель эффективности

Мы прогнозируем уровень урона от 1 до 3 (Низкий, Средний, Высокий). Уровень повреждения - это порядковая переменная, означающая, что порядок важен. Это можно рассматривать как проблему классификации или порядковой регрессии. (Порядковая регрессия иногда описывается как проблема где-то посередине между классификацией и регрессией.)

Чтобы измерить производительность наших алгоритмов, мы использовали показатель F1, который уравновешивает точность и отзывчивость классификатора. Традиционно оценка F1 используется для оценки производительности бинарного классификатора, но, поскольку у нас есть три возможных метки, мы использовали вариант, называемый микро усредненной оценкой F1.

Модели и характеристики:

После предварительной обработки и подготовки данных мы начали со случайной модели в качестве базовой линии. Пробовали различные модели машинного обучения, такие как логистическая регрессия, линейная SVM с приближением нистрома (для трюка с ядром), Random Forest, Light GBM и т. Д. Мы начали с очень простой модели логистической регрессии, и сложность постепенно увеличивалась.

Чтобы получить максимальную отдачу от различных моделей, по мере необходимости использовались GridsearchCV и простые методы перекрестной проверки. На практике настроенная логистическая регрессия, SVM и модели случайного леса привели к микро-среднему баллу f1 в диапазоне от 0,65 до 0,69. Для получения лучшего результата были разработаны классификатор голосования большинством голосов и легкие модели GBM. Давайте посмотрим, как мы можем определить настраиваемую метрику оценки для задач классификации на несколько классов, чтобы применить легкий GBM.

При правильной настройке гиперпараметров lightGBM и классификатора большинства голосов мы смогли получить оценку f1 0,78 и 0,74 соответственно. Мы также пробовали различные архитектуры глубокого обучения (MLP, LSTM, 1D CNN), но производительность была низкой по сравнению с настроенными моделями машинного обучения.

Вот сравнительный обзор полученного результата.

Воздействие в реальном мире

Автоматическая оценка может помочь двум типам конечных пользователей.

  1. Государственные учреждения: государственные органы могут получить более близкое и быстрое приблизительное представление об ущербе, причиненном землетрясением, без ручного вмешательства, которое может ускорить восстановление ущерба.
  2. Страховщики: после крупномасштабного стихийного бедствия системы страховых возмещений перегружены большим количеством новых претензий. Обработчикам претензий становится все труднее просматривать все данные об ущербе и определять степень серьезности ущерба. Услуги по оценке ущерба на основе ИИ помогут обработчикам претензий просмотреть единый индекс (степень ущерба) и определить серьезность ущерба, что в терминах может привести к более быстрой обработке претензий.

Конец заметок

Вы можете найти все необходимые файлы, коды и наборы данных по этому кейсу в моем репозитории GitHub.

цитата:

  1. Https://eq2015.npc.gov.np/#/
  2. Https://arxiv.org/abs/1606.07781
  3. Https://www.npc.gov.np/en
  4. Https://en.wikipedia.org/wiki/April_2015_Nepal_earthquake