При анализе временных рядов (TS) мы иногда заинтересованы в ретроспективной характеристике изменений (если таковые имеются) в данной выборке TS. Точка изменения (CP) — это абстракция резкого изменения TS; его значение - это индекс времени, при котором TS меняет свое поведение. Поведение ТС до КП отличается от поведения после КП. Более конкретно, CP — это момент времени, в который резко изменяются параметры базового распределения или параметры модели, используемой для описания TS (например, среднее значение, дисперсия, тренд) ([1]). Эта характеристика лежит в основе предлагаемого метода, обсуждаемого ниже. Обнаружение CP связано со статистической характеристикой CP. В качестве примера рассмотрим ТС подсчета единиц, произведенных заводом-изготовителем, прошедших контроль качества. Имея такой ряд длины T, нам может быть интересно выяснить, произошло ли внезапное изменение количества произведенных единиц, и если да, то мы можем использовать эту информацию, чтобы проследить соответствующее изменение в производственном процессе. Другие примеры включают: (a) предполагаемое увеличение числа сообщений о сотрясениях почвы и их вероятную связь со строительством ближайшей плотины или гидроразрывом пласта (b) изменение результатов лечения пациентов в связи с введением нового препарата или медицинской процедуры (c ) Изменение статистики спортивной команды и подбор звездного игрока (г) Изменение количества кликов по рекламе и изменение атрибута рекламы и т. д. Ниже рассматривается ТС, состоящая из данных подсчета и байесовского подхода к задаче обнаружения ( на основании [2] и [3]).

Предположим, у нас есть TS xколичеств x₁, x₂, …, xT, CP которых мы хотим обнаружить. Следуя общепринятой практике, мы будем моделировать подсчеты, используя распределение Пуассона. Пусть k будет CP x. Затем предполагается, что элементы TS «до» сегмента x₁, x₂,…xk являютсяi.i.d. Предполагается, что Poisson(λ) и оставшийся «после» сегмента, xk+1, …, xT, являются i.i.d. Пуассона(ϕ). Далее, пусть априорные значения: λ ~ Gamma(a, b) и ϕ ~ Gamma(c, d); предполагается, что k иметь равномерное дискретное априорное распределение по 1, …, T. Таким образом, a, b, c и d являются гиперпараметрами предлагаемой модели.

Среднее значение и дисперсия Poisson(λ) равны λ. Режим для нецелого числаλ является полом(λ). Когда λ является положительным целым числом, модами являются λ и λ − 1. Медиана задается граничным соотношением λ - ln(2) ≤ медиана ‹ λ + (1/3). Среднее значение, дисперсия и мода Gamma(r, s) составляют: r/s, r/s² и (r-1)/s,соответственно(это тоже не имеет закрытой формы для медианы; у нас есть граница: r - (1/3) ‹ медиана ‹ r). Грубо говоря, в Gamma(a, b) первый параметр a относится к «общему количеству», а второй параметр b относится к «общий объем выборки». Поскольку гамма-распределение является сопряженным априорным для вероятности Пуассона, апостериорные распределения λ и ϕтакже являются гамма-распределениями: p(λ| ϕ, k, x) = Gamma(a+sum(y1, ..yk), b+k) и p(ϕ| λ, k,x) = Gamma(a+sum(yk+1, ..yT), b+Tk). Таким образом, параметры общего количества и размера выборки обновляются в каждом из двух апостериорных значений. Апостериорное значение p(k| λ, ϕ, x)для k принимает вид:

У этой апостериорной функции есть несколько интересных аспектов: (1) Гиперпараметры a, b, c и d не участвуют в ней явно (2) Функция — это знакомая функция Softmax (3) В литературе по машинному обучению функция softmax часто упоминается как просто нормализующее устройство (на самом деле она связана с полиномиальной функцией правдоподобия). Однако здесь мы пришли к этой функции плотности более формальным способом. (4) Мы можем думать об оценке k на основе приведенной выше формулы как о задаче многоклассовой классификации. На самом деле, он имеет представление, похожее на нейронную сеть:

Здесь wᵢ и bᵢ — параметры сети. Однако на практике такая нейронная реализация может оказаться неудачной по крайней мере по трем причинам: (а) нейронные сети обычно хорошо обнаруживают агрегатные свойства; они, кажется, не реагируют сильно на сильно локализованные (здесь, точечные) особенности в данных. (b) Вход в сеть должен быть нормализован (например, между 0 и 1 или от -1 до 1). Нормализация может помешать сети различить подлинное резкое изменение и вариации из-за стохастичности наблюдений (рис. 1(b)). (c) Последняя проблема может на самом деле усугубиться, если наблюдения зашумлены. Поэтому в дальнейшем мы рассмотрим метод статистической выборки.

Статистическая выборка. Нашей конечной целью является выборка значений CP k из вышеупомянутого апостериорного распределения k, p( k |λ, ϕ,x),для которых требуются значения обусловливающих переменных λ и ϕ (поскольку мы имеют дело с апостериорным, предполагается, что наблюдалась выборка TS x). Эти значения λ и ϕ, в свою очередь, будут получены путем выборки их соответствующих апостериорных функций. Этот сценарий является прототипом применения выборки Гиббса,хорошо известного алгоритма цепи Маркова Монте-Карло (MCMC), который используется для получения выборок из многомерное распределение. Шаги нашего алгоритма на основе выборки Гиббса: (i) Выберите значения для гиперпараметров a, b, c иd. Кроме того, выберите некоторые начальные значения для ϕ и k (ii) Выборка λиз ее условного распределенияp(λ| ϕ, k , x) (iii) Используя выбранное значение λ и текущее значение k, выберите значение ϕ изиз его апостериорного распределенияp(ϕ| λ, k,x) (iv) Используя выборочные значения λ и ϕ, выбрать значение k из его апостериорного распределения p(k| λ, ϕ, x)(v) Повторить для желаемое количество шагов (имеется обширная литература по диагностике сходимости алгоритмов MCMC). (vi) После завершения прогона мы можем рассчитать оценки (и другие статистические данные) CP и других переменных из сгенерированных выборок. Ниже мы будем рассматривать медиану плаката k как его оценку. Кроме того, мы рассмотрим апостериорные (байесовские) шансы: pᵢ / (1 − pᵢ), где гдеpᵢ= p(k = i | λ, ϕ, x) ; i = 1, …, T, что в идеале должно достигать истинного значения CP.

Пример: мы рассматриваем TS числа аварий на угольных шахтах за 112-летний период (с 1851 по 1962 год) в Соединенном Королевстве (следуя [3]).

Из рис. 1 (а) мы видим, что значения относительно высоки в начале TS — примерно соответствуют 40-му индексу и годовому значению 1890 г. (с 1850-х по 1890-е гг. были введены штрафы за их нарушение, что могло способствовать повышению безопасности на угольных шахтах Великобритании [4]). После этой точки счетчики обычно уменьшаются и остаются относительно низкими для остальной части TS. Для пробоотборника Гиббса были выбраны следующие значения: a = 4, b = 1, c = 1, d = 2, phi = 1 и k = 56 (значение середина временного интервала). После 1000 проб были получены следующие результаты:

· медиана выборок КП k = 40; год[медиана] = 1890;

· доверительный интервал КП (2,5%, 97,5%): 36–46

Кроме того, апостериорные оценки λ и равны ϕ:

· медиана выборок λ= 3,14; медиана выборок ϕ = 0,91

Таким образом, оценка КП согласуется с данными, представленными на рис. 1, а. Байесовский метод обнаружения точки изменения, основанный на методах MCMC, прост, но универсален и может быть расширен за пределы данных подсчета, а также на случай многомерного TS.

Ссылки:

  1. Болье К. и др., «Анализ точки изменения как инструмент для обнаружения резких изменений климата», Фил. Транс. Р. Соц. А (2012) 370, стр. 1228–1249.
  2. Карлин Б.П. и др., Иерархический байесовский анализ проблем точки изменения, отчет Num SOL ONR 437, октябрь 1990 г. https://statistics.stanford.edu/research/hierarchical-bayesian-analysis-change-point-problems
  3. Френч Дж., Обнаружение точки изменения временного ряда, 2014 г. https://gallery.rcpp.org/articles/bayesian-time-series-changepoint/
  4. Миллс К., Регулирование охраны труда и техники безопасности в британской горнодобывающей промышленности 100–1914, 2010 г. (например, см. стр. 2, строка 24). «https://dspace.stir.ac.uk/bitstream/1893/3288/1/Regulating%20Health%20and%20Safety%20in%20the%20British%20Mining%20Industries.pdf