Автор: Чжэнь Линь (UIUC)

В этом блоге описывается наша статья NeurIPS’22 [3]: Conformal Prediction with Temporal Quantile Adjustments.

В этом блоге мы рассмотрим:

  • Краткое введение в конформное прогнозирование, мощный инструмент, обеспечивающий гарантии покрытия с минимальными предположениями о распределениях.
  • Проблемы создания действительных интервалов прогнозирования для прогнозирования временных рядов и наш подход к ним (TQA).

Ресурсы: код, плакат, бумага.

Проблема

Представьте, что мы больница и хотим предсказать биомаркер пациентов. Биомаркером может быть, например, количество лейкоцитов, артериальное давление или любая переменная непрерывного ответа. Поскольку у каждого пациента обычно несколько посещений, их данные образуют временной ряд. Как правило, у нас много пациентов, и они вместе образуют поперечное сечение. Перекрестные временные ряды часто встречаются в электронных медицинских картах (EHR), социальных науках и эконометрике, часто называемых панельными данными. Мы называем такие задачи поперечной регрессией временных рядов.

Наша цель — точно предсказать будущие наблюдения временного ряда с гарантией покрытия. Формально нас интересует точечная оценка ответа Y и интервал прогнозирования (PI) для этой оценки. Что касается гарантии покрытия, мы хотели бы сказать что-то вроде «с вероятностью 90% артериальное давление пациента находится в пределах [a,b]». Возникает несколько вопросов: как мы определяем [a,b]? Можем ли мы дать гарантию на это? Можем ли мы построить PI для любой базовой модели?

Чтобы сформулировать задачу, нам придется ввести некоторые обозначения:

Мы будем использовать строчные буквы для обозначения реализации этих случайных величин. Наша цель — построить интервал прогноза (PI), который будет охватывать соответствующий ответ Y с вероятностью ≥1-α. Например, для 90% PI α=0,1. Предположим, что наши пациенты независимы и одинаково распределены (i.i.d), но временной ряд каждого пациента имеет свою собственную (потенциально сложную) временную зависимость. Знакомые читатели могут понять, что конформное предсказание может пригодиться. Не волнуйтесь, если это звучит для вас чуждо, так как мы рассмотрим этот простой, но мощный инструмент в следующем разделе.

Предостережение: панельные данные/временные ряды перекрестных сечений иногда синхронны: например, доходность акций также является панельной информацией, но мы наблюдали доходность всех акций за один и тот же период одновременно. . Мы не фокусируемся на таких случаях. Например, для данных EHR можно использовать полную историю других пациентов при прогнозировании реакции нового пациента (с минимальным сдвигом распределения, если таковой имеется).

Краткое руководство по (разделенному) конформному прогнозированию

Прежде чем мы поговорим об основной идее статьи, нам нужно сделать небольшой экскурс в обзор некоторых основ. Конформное прогнозирование — это структура, целью которой является предоставление доказуемых гарантий покрытия с минимальными предположениями о базовой модели. Его гибкость привлекает множество недавних приложений к сложным моделям глубокого обучения. (Мы пропускаем некоторые технические детали в этом разделе, и заинтересованные читатели должны обратиться к [1] ​​или нашей статье [3] для более полного рассмотрения темы конформного предсказания и связанных работ.)

Предположим, что мы сосредоточились на конкретном t. В простейшей форме мы собираем остатки от протянутой группы пациентов:

тогда для нового пациента с прогнозом ŷ в момент времени t мы могли бы построить:

Здесь Q(β; A) означает β-квантиль для множества A. При нашем предположении i.i.d этот PI будет покрывать соответствующий Y с целевой вероятностью 1-α, как формально указано в гарантии покрытия ниже:

Здесь вероятность берется для случайного временного ряда (индексированного как N+1).

Общий случай

На мгновение давайте проигнорируем нижний индекс t, поскольку он фиксирован, и рассмотрим любую задачу классификации или регрессии, пытающуюся оценить Y по X. Наша задача состоит в том, чтобы использовать конформное предсказание для построения набора значений, таких как что вероятность Y∈Ĉ не меньше 1-α. Обратите внимание, что в этом случае интервал предсказания можно рассматривать как подмножество ℝ, и Ĉ не обязательно должно быть непрерывным. Как правило, для конформного прогнозирования требуется функция «оценки несоответствия» s, которая измеряет, насколько «неконформным» является реализованное данное (x,y). Например, мы могли бы интерпретировать наш «остаток» выше как s(x,y) = |y-ŷ(x)|. Чем больше невязка, тем более неконформна эта точка данных по отношению к подобранной модели (и, в некоторой степени, к обучающей выборке). Затем набор/интервал конформного прогнозирования строится как:

Обратите внимание, что PI в уравнении (1) является частным случаем этой общей формулы (3).

Затем мы могли бы показать, что ответ действительно попадает в этот PI по крайней мере 1-α времени. Давайте сначала рассмотрим ранг нашей контрольной точки среди всех оценок несоответствия, обозначенный r:

Благодаря нашему i.i.d. предположении, что r следует равномерному распределению. Это означает, что для любого β∈(0,1), включая, в частности, β=1−α, вероятность того, что r будет меньше β-квантиля Оценок, равна β¹! Обратите внимание, что мы НЕ знаем оценку несоответствия для нашей контрольной точки, поэтому мы использовали ∞ в уравнении (1) — если α(N+1)‹1, должно быть ясно, что множество в уравнении (3) ) может включать сколь угодно большой показатель несоответствия/остаток (и, следовательно, сколь угодно большой Y).

Случай классификации

В статье мы сосредоточились на регрессии. Вы можете задаться вопросом, как выглядит конформное предсказание для классификации? (Да, это еще один отход от статьи.) Для этого мы вводим ключевое понятие набор прогнозов. Предположим, у нас есть обученный классификатор f(y|x), который предсказывает вероятность того, что x принадлежит классу y. Мы могли бы просто использовать s(x,y) = 1-f(y|x) в качестве оценки несоответствия. В этом случае Ĉ представляет собой набор предсказаний, состоящий из дискретных значений, таких как {кошка, собака}. Мощность Ĉ увеличивается по мере уменьшения α — например, когда α=0, Ĉ содержит все классы. На практике нам нужен небольшой набор предсказаний Ĉ для любого фиксированного α.

Обратите внимание, что существует множество вариантов оценки несоответствия для разных случаев. На самом деле, очень важной частью исследования конформного прогнозирования является разработка лучших показателей несоответствия. Однако в нашей статье мы пытаемся улучшить конвейер другим способом, намереваясь работать с любыми показателями несоответствия.

Временная квантильная корректировка

Теперь вернемся к основному сюжету газеты.

Разделенный интервал конформного предсказания велик. Но мы закончили? Не совсем! Когда PI покрывает Y по крайней мере 1-α времени, мы говорим, что он действителен. Однако из рисунка 1 ниже видно, что существует несколько профилей достоверности. В частности, как B, так и C на рис. 1 удовлетворяют приведенной выше гарантии, которую мы называем перекрестной достоверностью. Существует еще одно важное понятие, называемое длительная валидность. Давайте представим пациента, которого наша модель не очень хорошо предсказывает. Если ее Y находится за пределами нашего PI 20 из 20 раз, должны ли мы продолжать повторять построение вышеупомянутых PI для будущих посещений? Возможно нет. Это именно то, что произошло с первой строкой B на рисунке 1, которая не является недействительной в продольном отношении. Вместо этого мы предпочтем C, так как PI являются действительными как в поперечном, так и в продольном разрезе.

Предыдущее обсуждение подводит нас к основной идее нашей статьи. Интуитивно мы хотим получить оба профиля валидности, такие как C на рисунке 1. Оказывается, довольно сложно обеспечить теоретическую гарантию лонгитюдной валидности. В качестве практического компромисса мы стремимся сохранить перекрестную достоверность при улучшении продольной достоверности. Обратите внимание, что Y не покрывается тогда и только тогда, когда ранг остатка больше 1-α. Идея состоит в том, что мы можем фактически заменить запрошенный квантиль динамическим значением:

Мы могли бы изменить квантиль для запроса, предсказав ошибку, и использовать более высокую (более низкую) корректировку, когда мы считаем, что ошибка будет высокой (низкой). Ниже мы представляем два метода корректировки временных квантилей (TQA):

TQA: Бюджетирование

Наш первый метод называется TQA-B (B означает составление бюджета). Несложно показать, что если наша корректировка представляет собой случайный шум, не имеющий отношения к рангу r (поскольку корректировки, влияющие на ранг, будут очень «плохими»), то кросс-секционная валидность достигается, когда ожидание корректировки неотрицательно. Положительная корректировка ожиданий приведет к более консервативным (т. е. более широким) PI. Чтобы получить эффективные/узкие PI, мы установим это ожидание точно равным 0. Это ограничение также является источником названия «бюджетирование». Разделим пайплайн на два этапа:

  1. Предсказание квантиля: предскажите квантиль оценки остатка/несоответствия нашей контрольной точки. Мы используем ранг экспоненциально взвешенной скользящей средней (EWMA) остатков.
  2. Бюджетирование: учитывая прогноз ранга, мы преобразуем его в корректировку с помощью:

На следующем рисунке (рис. 2) показано, почему это должно помочь улучшить покрытие, когда наш прогноз ранга действительно предсказывает реализованный ранг оценки несоответствия контрольной точки.

TQA: корректировка на основе ошибок

Второй метод называется TQA-E. В этой версии мы просто используем ошибку (попадает ли Y в соответствующий PI) для обновления нашей корректировки. Этот метод обрабатывает каждый временной ряд независимо. Чтобы быть конкретным:

Это правило обновления основано на [2]. Как и в [2], мы также допускаем, чтобы запрашиваемый квантиль был меньше 0, и в этом случае мы имеем бесконечно широкие PI. Это означает, что TQA-E имеет лучшую гарантию асимптотического покрытия (подробности см. в нашей статье), но также имеет тенденцию быть более широким и менее эффективным.

Как для TQA-B, так и для TQA-E мы могли бы показать, что даже если наша корректировка «плохая» (например, когда ошибки для каждого временного ряда независимы во времени), мы все равно имеем перекрестную достоверность. Однако, поскольку они оба пытаются приспособиться к «ненормальности» — или несоответствию — эмпирически они демонстрируют гораздо лучший лонгитюдный охват.

Эксперименты

Чтобы проверить эффективность TQA, мы проводим эксперименты на нескольких наборах данных, в том числе:

  • MIMIC: прогноз количества лейкоцитов (WBCC) на основе записей пациентов набора данных MIMIC-III. Последовательные визиты одного пациента считаются временным рядом.
  • CLAIM: прогнозирование суммы претензии с использованием данных страховки. Несколько последовательных заявлений одного пациента считаются одним временным рядом, а X включает такие функции, как коды МКБ-10 или CPT/HCPCS.
  • COVID²: задача прогнозирования случаев COVID-19. Каждый временной ряд — это случаи COVID для одного региона Великобритании.
  • ЭЭГ: предсказание траектории сигналов электроэнцефалограммы (ЭЭГ) после визуальных стимулов. Каждый временной ряд представляет собой короткую запись ЭЭГ.
  • GEFCom: данные об энергетической нагрузке из задачи вероятностного прогнозирования электрической нагрузки в конкурсе Global Energy Forecasting Competition 2014. Он содержит почасовые данные о температуре (X) и электрической нагрузке (Y) одной коммунальной службы за 9 лет. Мы рассматриваем разные дни как поперечное сечение, и каждый временной ряд имеет длину 24.

TQA-B и TQA-E сравниваются несколькими методами (некоторые конформными) по трем метрикам:

  1. Средняя степень охвата: доля Y, попадающая в соответствующий Ĉ (по всем i и t).
  2. Показатель хвостового охвата: аналогичен среднему коэффициенту охвата, но смотрите только на наименее покрытые 10 % всех временных рядов (т. е. эффективность на самых сложных временных рядах).
  3. Обратная эффективность: средняя ширина PI, деленная на среднюю степень охвата. Мы предпочитаем более низкую обратную эффективность, потому что это означает, что PI может достичь желаемого покрытия с более узкими интервалами.

Для хорошего PI мы хотели бы, чтобы первые две метрики были как можно ближе к 90% (наша цель), а последняя метрика была бы небольшой. Обратите внимание, что если мы вернемся к рисунку 1, B и C оба имеют среднюю степень охвата 90%, но только C, будучи лонгитюдно достоверным, имеет высокий коэффициент охвата хвоста.

В таблицах 1, 2 и 3 представлены результаты. Как TQA-B, так и TQA-E значительно улучшают коэффициент охвата хвоста по сравнению с базовыми уровнями. TQA-B также поддерживает очень конкурентоспособную эффективность.

Заключение

Мы предложили Temporal Quantile Adjustment, или TQA, для создания интервалов прогнозирования в прогнозировании временных рядов с поперечным сечением. TQA относится к структуре конформного прогнозирования, и основная идея состоит в том, чтобы настроить квантиль для запроса с использованием собранной на данный момент временной информации. Это позволяет TQA работать с любой моделью и любым дизайном оценки несоответствий. Пожалуйста, ознакомьтесь с нашей статьей [3] для получения более подробной информации, включая сведения о теоретических гарантиях и сравнении нескольких различных альтернативных способов выполнения корректировок. Мы также включили демонстрационный блокнот, демонстрирующий, как применять TQA к любой модели, которая у вас уже есть!



Рекомендации

[1] Владимир Вовк, Алекс Гаммерман и Гленн Шафер. Алгоритмическое обучение в случайном мире. Springer, Нью-Йорк, 2005 г.

[2] Исаак Гиббс и Эммануэль Кандес. Адаптивный конформный вывод при смещении распределения. Достижения в области нейронных систем обработки информации, 2021 г.

[3] Чжэнь Линь, Шубхенду Триведи и Цзимэн Сунь. Конформное предсказание с поправкой временных квантилей. Достижения в области нейронных систем обработки информации, 2022 г. arxiv

Сноски

  1. Обратите внимание, что технически квантили могут принимать только дискретные значения в [0,1,…,N+1]/(N+1), поэтому невозможно выбрать такой квантиль для любого непрерывного значения β. Для достижения желаемого результата нам потребуется использовать «сглаженные конформные предикторы» из [1].
  2. COVID также можно рассматривать как синхронный набор данных (если мы проигнорируем часть асинхронного обновления). Здесь мы просто следовали базовому документу (CFRNN) и использовали его для целей оценки.