Первоначальное исследование приложений машинного обучения

Содержание

  • Основные понятия о землетрясениях
  • Связанные исследования
  • Данные
  • Моделирование
    º Постановка проблемы
    º Предварительная обработка и разработка функций
    º Выбор модели
  • Результаты и обсуждение
  • Дальнейшие действия
  • Ссылки

Основные понятия о землетрясениях

Землетрясения - это хорошо изученные явления, которые широко освещаются академическими исследованиями, поэтому здесь будут описаны только основные концепции.

Большая часть сейсмической активности происходит между движением литосферных плит (также известных как тектонические плиты). Это движение накапливает энергию в виде напряжения камня, а затем внезапно высвобождается.

После землетрясения можно определить местоположение (долготу, широту и глубину), время и магнитуду. Магнитуда - это физический размер землетрясения, а выделившаяся энергия также может быть приблизительно оценена путем преобразования моментной магнитуды [1].

Землетрясения могут вызвать разрушения и привести к гибели людей. Не только из-за сотрясения земли, но и из-за вторичных эффектов, таких как оползни, трещины, лавины, пожары и цунами [2].

В период с 1998 по 2017 год землетрясения стали причиной почти 750 000 смертей во всем мире, более половины всех смертей были связаны со стихийными бедствиями. Более 125 миллионов человек пострадали от землетрясений в течение этого периода времени, что означает, что они были ранены, остались без крова, перемещены или эвакуированы во время чрезвычайной фазы стихийного бедствия.

- Всемирная организация здравоохранения

Создание системы упреждающего предупреждения может значительно повысить эффективность управления рисками. Возможность подготовиться к этим редким событиям поможет свести к минимуму причиненный вред с помощью таких действий, как оповещение местного населения и предоставление государственных средств.

Связанные исследования

Насколько мне известно, два исследования пытаются предсказать, когда произойдет следующее землетрясение, с помощью машинного обучения [3] [4]. Оба приходят к выводу, что очень трудно предсказать следующее событие из-за его случайности и сложности доказать, что землетрясения следуют определенной схеме.

Важно отметить, что в обоих исследованиях для построения модели машинного обучения используется таблица зарегистрированных землетрясений. См. Подраздел Описание проблемы для дальнейшего обсуждения.

Также были изучены другие приложения ML:

  • В исследовании были получены хорошие результаты, сфокусированные на прогнозировании афтершоков, которые происходят после более крупных, и является важной темой, поскольку афтершоки также наносят большой ущерб [5]. Некоторые дискуссии возникли по поводу используемой методологии data science [6] [7] [8].
  • Лабораторные эксперименты с землетрясениями изучаются с помощью ML, пытаясь предсказать время до отказа [9] [10].
  • В другой работе были обнаружены закономерности в энергетических сигналах от сейсмических волн малой амплитуды до времени медленного проскальзывания [11].
  • Предсказание бокового распространения было исследовано [12]. Также был проведен конкурс на моделирование повреждений от землетрясений [13].
  • Автоматизация обнаружения землетрясений и выбора фазы [14].

Данные

Исходные данные были взяты из Каталога землетрясений Геологической службы США (USGS) [15]. Все землетрясения во всем мире с начала записи до конца 2018 года были загружены и затем отфильтрованы, как описано ниже.

Была выбрана граница плиты Наска и Южной Америки (широта от -47º до 7º и долгота от -85º до -60º).

Были выбраны годы с 1973 по 2018 год. Сравнивая гистограммы количества землетрясений по датам, можно увидеть явное увеличение количества зарегистрированных событий, в основном для более низких магнитуд. Скорее всего, это связано с увеличением количества сейсмометров, а не с фактическим увеличением количества землетрясений.

Дополнительную информацию см. В разделе Дальнейшие действия.

Все загруженные данные, использованные для этого исследования, можно найти здесь.

Моделирование

Постановка задачи

Вместо использования таблицы зарегистрированных землетрясений для оценки окончательной модели был выбран другой подход.

Если целью является создание системы предупреждения, способной прогнозировать риск землетрясения на любой период времени и в конкретных областях, на мой взгляд, более справедливая оценка результатов является более сложной задачей. Нам нужно воспроизвести реальный сценарий в нашем наборе данных и добавить периоды времени без сейсмических событий в наши временные рамки. Это гарантирует, что мы будем оценивать прогнозы даже при отсутствии землетрясений.

Для этого были сделаны следующие шаги.

Сначала выделенная область была разделена на трехмерную сетку. Выбранные размеры пространственного разрешения составляли 10 градусов широты, 12 градусов долготы и 100 км глубины.

Во-вторых, данные были сгруппированы по времени по двум периодам, что дало две окончательные модели. Один с 7 днями (weekly model), а другой с 1 днем ​​(daily model). Также было добавлено предупреждение о диапазоне периодов: 2 для weekly model и 3 для daily model. Например, для daily model, если землетрясение произойдет в пятницу, не только в четверг вечером, но также в среду и вторник. Для weekly model, если землетрясение произойдет на третьей неделе данного месяца, он должен подать сигнал тревоги в первую и вторую недели.

Наконец, для фактического типа оповещения было выбрано оповещение о каждом землетрясении с магнитудой (M) больше или равной 5,0. Этот уровень магнитуды был выбран, потому что он может нанести ущерб, если находится близко к населенному пункту (не только в плоскости широты и долготы, но и по глубине, находясь или не близко к поверхности). Даже землетрясения с более низкой магнитудой уже привели к гибели людей, например В 4.9 M Афганистан 1997 погибло 15 человек [16], хотя это редкость. Начиная с этого уровня, они могут стать еще более разрушительными, например 5,3 млн. Таджикистан 1989 погибли 274 человека [17].

Таким образом, данные были преобразованы в задачу двоичной классификации временных рядов для каждой точки трехмерной сетки (x-y-z-t).

Пожалуйста, обратитесь к разделу Дальнейшие действия для обсуждения параметров и типа проблемы.

Предварительная обработка и разработка функций

Суть этого моделирования заключается в отслеживании рассеивания энергии. Следовательно, все землетрясения, превышающие или не превышающие выбранный уровень предупреждения, были преобразованы в энергию, что позволило нам сгруппировать различные события в одной и той же точке трехмерной сетки (это невозможно сделать с магнитудой: два события с M = 3 не совпадают с одним из M = 6).

Следующим шагом является сокращение данных в соответствии с постановкой задачи. Отсюда получается энергия для каждой точки для каждого периода времени, заполняя периоды без событий нулевой энергией.

С помощью хорошо отформатированного набора данных x-y-z-t можно выполнить процесс проектирования признаков. Создаваемые функции - это скользящие средние энергии (периоды 30, 60, 90, 180, 330 и 360), отношения этих М.А., а также скользящее среднее для точек трехмерных данных соседей. Эти последние функции созданы, чтобы попытаться уловить соотношение энергии между близкими точками.

Еще одна созданная функция - это отслеживание дней с момента последнего события, попытка зафиксировать частоту событий.

Здесь отображаются характеристики полученных наборов данных:

* weekly model
Balance: 7.10%
Number of records: 106,265
Number of features: 18
* daily model
Balance: 1.76%
Number of records: 744,294
Number of features: 18

Выбор модели

Поскольку это очень несбалансированная проблема, лучше использовать показатель F, который представляет собой взвешенное среднее гармоническое значение между точностью и отзывом. В одной из своих предыдущих статей [18] я объясняю разницу между этими метриками. Точность наказывается за ложные срабатывания, а отзыв - за пропущенные события.

Разделение данных составило 90% поездов и 10% тестов.

В обучающих данных был выполнен поиск по сетке, чтобы найти лучшие модели, с использованием 3-кратного временного ряда перекрестной проверки.

###########################
# linear models
###########################
lin_params = {
    'C' : [0.01, 0.1, 1.0],
    'solver': ['lbfgs', 'newton-cg']
}
###########################
# random forest models
###########################
rft_params = {
    'max_depth': [6, 7, 8],
    'n_estimators': [25, 50, 75, 100, 150],
}
###########################
# xgboost models
###########################
xgb_params = {
    'max_depth': [5, 6, 7],
    'n_estimators': [15, 25, 35],
}
###########################
# additional preprocessing
# all features have the NaN filled and inf values clipped
# for linear models, standard scaling is applied
###########################
additional = [None, iforest, kmeans]

Результаты перекрестной проверки:

Весь код можно найти здесь.

Результаты и обсуждение

С помощью лучшей модели были определены результаты в тестовом наборе данных:

Для Proof of Concept, если рассматривать проблему в перспективе (очень несбалансированную), особенно с точки зрения точности, результаты будут разумными.

Уровни точности и отзыва, достигнутые для недельной модели, являются приемлемыми. Возможно, не подходит для оповещения населения в некоторой области. Но это может быть полезно как для правительств, так и для предприятий с высоким уровнем риска (например, атомных электростанций), чтобы планировать и быть в состоянии большей готовности.

Также представлены матрица неточностей и значения Шепли:

Следующие шаги

Поскольку это первоначальное исследование, есть много областей для потенциального улучшения и изучения.

Гранулярность

И пространство, и время могут быть по-разному дискретизированы, но если это разбалансирует золотой источник модели (например, увеличивая пространственное разрешение), он, скорее всего, будет работать хуже. Это также включает предупреждение о диапазоне.

Баланс набора данных, вероятно, является одним из самых важных факторов.

Постановка задачи

Уровень предупреждения 5.0 можно изменить, но если он установлен на более высокие значения, он уменьшит баланс набора данных, что повлияет на его производительность.

Альтернативой бинарной классификации является регрессия, нацеленная на энергию. Затем, если прогнозируемая энергия достигает определенного уровня, выдается предупреждение.

Энергия

В настоящее время расчет энергии является приблизительным, но на самом деле он различается в зависимости от типа и уровня величины. Это необходимо проанализировать, если влияет на модель.

Добавление функций

Скользящие стандартные отклонения - это следующий набор функций, которые нужно протестировать.

Геомагнитное поле

Добавление дополнительной информации, такой как магнитное поле от IMO, возможно, может улучшить результаты. Данные необходимо получить, преобразовать и спроектировать, чтобы проверить, есть ли какие-либо скрытые закономерности, которые могут улучшить результаты.

Регионы

Другие регионы могут быть изучены, и возможно трансферное обучение.

Модели

Можно протестировать нейронные сети и автоэнкодеры. Трехмерные сверточные нейронные сети также являются вариантом, делая местоположение (x-y-z) частью архитектуры.

Поиск гиперпараметров

Следует использовать более продвинутые и современные стратегии поиска по гиперпараметрам, такие как байесовская оптимизация.

Объяснимость

XAI можно изучить подробнее, поскольку здесь были рассмотрены только основы. Можно изучить и другие отношения условных признаков, как в здесь [19].

Отбор проб

Также можно исследовать передискретизацию и недостаточную выборку.

Трубопровод GCP

Все шаги можно автоматизировать, от поиска данных до поиска по гиперпараметрам и автоматического переподготовки.

использованная литература

[1] Геологическая служба США, Величина землетрясения, выделение энергии и интенсивность сотрясений, Опасности землетрясений.

[2] Всемирная организация здравоохранения, Землетрясения, Вопросы здоровья.

[3] Самир, История землетрясений (1965–2016 гг.): Визуализация данных и разработка моделей (2019 г.), Medium.

[4] К. Дилбаз, Следуют ли землетрясения по определенной схеме? (Часть 2) (2019), Medium.

[5] DeVries, P.M.R., Viégas, F., Wattenberg, M. et al. Глубокое изучение моделей афтершоков после сильных землетрясений (2018), Nature 560, 632–634.

[6] Миньян А., Броккардо М. Один нейрон против глубокого обучения в прогнозировании афтершоков (2019), Nature 574, E1 – E3.

[7] Р. Шах, Stand Up for Best Practices: (2019), Medium.

[8] Synced, Сейсмическая газета Гарварда и Google попала под опровержение: подходит ли глубокое обучение для прогнозирования афтершоков? (2019), Средний.

[9] Б. Руэ-Ледюк, К. Халберт, Н. Любберс, К. Баррос, К. Дж. Хамфрис, П. А. Джонсон, Машинное обучение предсказывает лабораторные землетрясения (2017), Geophysical Research Letters 44, 9276–9282.

[10] П. А. Джонсон, Б. Руэ-Ледюк, Л. Дж. Пирак-Нольте, Г. К. Бероза и др., Лабораторное прогнозирование землетрясений: соревнование по машинному обучению (2021 г.), Труды Национальной академии наук, 118.

[11] К. Халберт, Б. Руэ-Ледюк, П. А. Джонсон, Бесшумное накопление сейсмической энергии предшествует медленному проскальзыванию в зоне субдукции Каскадия (2019).

[12] М. Г. Дуранте, Э. М. Ратье, Исследование использования машинного обучения для прогнозирования бокового распространения (2021 г.), SAGE Journal.

[13] DriveData, Предиктор Рихтера: моделирование ущерба от землетрясений (2021 г.).

[14] Мусави, С.М., Эллсуорт, В.Л., Чжу, В. и др. Трансформатор землетрясений - внимательная модель глубокого обучения для одновременного обнаружения землетрясений и выбора фазы (2020). Нац Коммуна 11, 3952.

[15] Геологическая служба США, Поисковый каталог землетрясений.

[16] Геологическая служба США, M 4.9 - Афганистан.

[17] Геологическая служба США, М 5.3 - Таджикистан.

[18] Густаво Бигеллини Мартинс, Использование открытых банковских операций с помощью науки о данных (2020 г.), Medium.

[19] Катарина Фрейтас, Выходя за рамки прогнозирования оттока для поддержки удержания клиентов (2021 г.), Medium.