Классификация временных рядов с использованием извлечения признаков

Классификация временных рядов является одной из основных областей исследований в последние несколько лет, в основном из-за большого количества ее практических приложений в различных областях. Он используется во многих отраслях, таких как бизнес, больницы, отели и транспорт. Обнаружение аномалий фондового рынка в бизнесе, определение моделей сердцебиения пациентов в больницах и определение уровней температуры в климатологии - вот некоторые из практических примеров этого. Точная классификация временных рядов может значительно увеличить доход бизнеса, а также способствовать оптимальному распределению ресурсов, поэтому многие отрасли проявляют большой интерес к этой области. Есть несколько терминов, связанных с классификацией временных рядов, которые необходимо определить заранее. Это наборы данных временных рядов, анализ временных рядов и, наконец, классификация временных рядов.

Набор данных временного ряда - это набор данных, который представляет некоторые измерения количества за период времени. Поведение ряда сильно зависит от порядка точек, а изменение порядка точек данных меняет смысл всего набора данных. Анализ временных рядов разрабатывает статистические модели, чтобы дать разумные объяснения относительно выборочных данных. Эти модели могут быть разработаны с использованием различных технологий машинного обучения.

Классификация временных рядов связана с классификацией точек данных во времени на основе их поведения. Могут быть наборы данных, которые ведут себя ненормально по сравнению с другими наборами данных. Выявление необычных и аномальных временных рядов становится все более распространенным явлением для организаций. Для организации необходимо выявлять ненормальное поведение, чтобы принимать надежные бизнес-решения и делать прогнозы на рынке. Например, крупные бизнес-отрасли, такие как Yahoo, отслеживают свои почтовые серверы с течением времени, чтобы обнаруживать аномалии и вредоносные временные ряды. В этом случае извлечение признаков можно использовать в качестве методологии классификации временных рядов.

Извлечение признаков, относящееся к извлечению информации из серьезного времени, чтобы представить временной ряд как вектор признаков. Эти характеристики могут быть получены с помощью научного анализа временных рядов. Корреляционная структура, распределение, энтропия, стационарность и свойства масштабирования - вот некоторые из примеров функций временных рядов, и они облегчают подгонку временных рядов к ряду моделей временных рядов. В основном это связано со статистикой, поскольку большинство функций, описывающих информацию временных рядов, являются статистическими.

Огромные объемы данных временных рядов собираются каждый день из множества разнородных источников данных в разных доменах приложений. Огромный объем данных создается за доли секунды, особенно в социальных сетях, таких как Facebook и Twitter. Высокодинамичный и изменчивый характер этих областей наряду со сбором и хранением таких огромных объемов данных создает новые проблемы для классификации временных рядов. Из-за размера, скорости и сложности, присущих большим данным, традиционные методы классификации, такие как классификация на основе экземпляров, могут не дать точного определения аномальных временных рядов. Шум данных и сезонность также увеличивают эту вероятность. Подходы, основанные на характеристиках, более интерпретируемы и более устойчивы к отсутствующим и зашумленным данным. Таким образом, эффективная предварительная обработка этих данных и выявление скрытых закономерностей с минимальными затратами ресурсов - это современный исследовательский интерес.

Ряд исследователей изучали классификацию временных рядов в прошлом, используя различные подходы. Роб Хайндман и др. предложить идею классификации временных рядов с использованием анализа главных компонентов (PCA) по признакам [1]. Это исследование в основном сосредоточено на обнаружении необычных или аномальных временных рядов. Для этого они применили методы двумерного обнаружения выбросов к первым двум основным компонентам определенного временного ряда и тем самым определили наиболее необычный временной ряд среди данного набора временных рядов. Эта методология сравнивалась с кластеризацией K-средних в качестве базового метода и превзошла ее в результате использования хорошо изученного пространства признаков для классификации.

Бен Фулчер и др. представить технологию классификации временных рядов на основе набора выбранных характеристик временных рядов [2]. Они разработали механизм для автоматизации процесса извлечения признаков из временного ряда. После создания большого количества функций наиболее подходящие функции для представления определенного временного ряда были выбраны с помощью жадного подхода. Временной ряд представлен как вектор признаков, а набор векторов признаков используется с моделью классификации, такой как дерево решений для классификации временных рядов. Эта методология обеспечивает лучшую производительность по сравнению с традиционными методологиями классификации, такими как классификация на основе экземпляров. В этом случае они также ввели набор самоописываемых характеристик для временных рядов, таких как комковатость, шипастость, сдвиг уровня и точки пересечения, при использовании их для классификации временных рядов.

Классификация временных рядов на основе признаков также использовалась для анализа и визуализации временных рядов. Ник Джонс и др. предложить механизм для представления временных рядов, используя их свойства, измеренные различными научными методами [3]. Он поддерживает автоматическую организацию наборов данных временных рядов на основе их свойств. Представление временных рядов было достигнуто с помощью двумерной матрицы, где строки представляют временные ряды, а столбцы - их операции. Это упрощает анализ временных рядов, поскольку представляет большой объем информации с использованием функций временных рядов.

Классификация временных рядов - вспомогательный механизм для прогнозирования временных рядов. Kasun Bandara et al. предложить механизм прогнозирования временных рядов с использованием сетей с долгосрочной краткосрочной памятью (LSTM) [4]. В этом случае они разработали разные сети LSTM для разных кластеров временных рядов, и прогнозирование временных рядов для разных кластеров выполнялось отдельно. В этом случае классификация на основе признаков использовалась в качестве вспомогательного механизма для кластеризации временных рядов после представления временного ряда как вектора признаков.

использованная литература

[1] Р.Дж. Гайндман, Э. Ван и Н. Лаптев. Обнаружение крупномасштабных необычных временных рядов. In Proceedings - Семинар 15-й Международной конференции IEEE по интеллектуальному анализу данных, ICDMW 2015, страницы 1616–1619, 2016

[2] Б.Д. Фулчер и Н. Джонс. Сравнительная классификация временных рядов на основе признаков. IEEE Transactions on Knowledge and Data Engineering, 26 (12): 3026–3037, 2014 г.

[3] Б.Д. Фулчер, М.А.Литтл, Н.С. Джонс. Сравнительный анализ временных рядов: эмпирическая структура временных рядов и их методы. Журнал Интерфейса Королевского общества, 10 (83), 2013 г.

[4] К. Бандара, К. Бергмейр и С. Смил. Прогнозирование по базам данных временных рядов с использованием сетей долгосрочной краткосрочной памяти по группам схожих рядов, 2017 г. [онлайн] Доступно по адресу: https://arxiv.org/abs/1710.03222 [доступ 4 ноября 2018 г.]

Классификация временных рядов с использованием извлечения признаков

использованная литература

Вопросы по теме