Поиск аномалий и основных причин проблемы

Статья, опубликованная в сентябре 2022 года исследователями из Salesforce Research и Carnegie Mellon, — это замечательная работа, которая поднимает крышку черного ящика обнаружения аномалий данных во временном ряду. Этот подход рассматривает аномалии в данных временных рядов как случаи, которые не следуют нормальным причинно-следственным связям.

Подход авторов разбивает проблему обнаружения аномалий на ряд более мелких модулей низкой размерности и предлагает естественный способ поиска основных причин. Более простые группы измерений обрабатываются отдельно с использованием свойства модульности причинно-следственных систем.

Авторы проверили свой подход на ряде смоделированных и реальных наборов данных, включая данные ИТ-операций.

Их систематический подход может быть интересен для клинических данных.

Рассмотрите частоту связанных нежелательных явлений.

Выявление аномалий в частоте нежелательных явлений является важным аспектом мониторинга клинических испытаний, поскольку это может помочь выявить потенциальные проблемы безопасности, связанные с исследуемым вмешательством или другими факторами.

Мы могли бы использовать этот подход для выявления любых необычных закономерностей или тенденций в связанных НЯ.

Подробнее об этом позже.

Краткое введение в обнаружение аномалий в клинических данных

Прочитав статью, я понял, что есть некоторые базовые концепции, которые можно было бы объяснить. Начнем с объяснения того, что такое клинические данные.

Что такое клинические данные?

Клинические данные — это набор измерений на временной шкале (многомерный временной ряд в мире статистики и машинного обучения).

В клиническом испытании есть несколько временных шкал — временная шкала исследования (данные, собранные сайтами с помощью EDC), временная шкала пациента (данные, собранные пациентами с помощью ePRO) и временная шкала подключенного устройства IoT (носимого/используемого пациентами).

На временных шкалах собираются различные типы данных:

  1. Числовые: этот тип данных состоит из чисел и может быть непрерывным (например, АД) или дискретным (количество нежелательных явлений).
  2. Категориальный: этот тип данных состоит из категорий или меток и может быть номинальным (например, вопросы IE) или порядковым (например, баллы).
  3. Текст: письменный или устный язык, который можно использовать для задач обработки естественного языка (NLP), таких как анализ тональности или классификация текста.
  4. Изображение: изображения или визуальные представления, которые можно использовать для задач компьютерного зрения, таких как распознавание объектов или классификация изображений.

Что такое стационарные данные и почему меня это должно волновать?

В статистике и анализе временных рядов стационарные данные относятся к временному ряду, в котором статистические свойства, такие как среднее значение, дисперсия и автокорреляция, остаются постоянными во времени. Другими словами, на данные не влияют тенденции, сезонность или другие закономерности, которые меняются со временем.

Клинические данные могут быть как стационарными, так и нестационарными, в зависимости от лежащих в их основе процессов и наблюдаемых закономерностей.

Например, если клинические данные представляют собой стабильный физиологический процесс, который не меняется во времени (например, частота сердечных сокращений у здорового человека в состоянии покоя), то данные можно считать стационарными. В этом случае среднее значение и дисперсия частоты сердечных сокращений будут постоянными во времени.

Однако если клинические данные представляют собой динамический процесс, который изменяется во времени (например, уровень глюкозы в крови у пациента с диабетом, проходящего лечение в ходе исследования), то данные могут быть нестационарными. В этом случае в данных могут быть тренды или сезонные закономерности, а среднее значение и дисперсия уровней глюкозы в крови могут меняться со временем.

Если данные нестационарны, мы можем разбить набор данных на более мелкие независимые фрагменты, используя свойство модульности.

Свойство модульности каузальных систем относится к идее о том, что сложные системы часто можно разложить на модульные, автономные единицы или модули, каждая из которых имеет отчетливую каузальную структуру.

В нашем примере ЧСС и уровень сахара в крови будут в 2 отдельных модулях.

Идем дальше.

Обнаружение аномалий в клинических данных

В целом существует 2 подхода к обнаружению аномалий:

  1. Обработка каждой переменной отдельно
  2. Обработка всех переменных вместе как единой сущности с использованием алгоритмов обнаружения аномалий многомерных временных рядов.

Оба подхода проблематичны.

  1. Отслеживание одной переменной за раз — например, просмотр частоты связанных нежелательных явлений; что является типичным показателем безопасности. Он игнорирует зависимость с другими временными рядами в исследовании. Это проблематично, особенно когда частота НЯ может не указывать на провал всего исследования или когда взаимосвязи с биомаркерами становятся аномальными.
  2. Наблюдение за всеми переменными в исследовании как единой сущностью. Этот подход учитывает зависимости и может иметь больше смысла для мониторинга клинических испытаний. Глубокое обучение можно использовать для обнаружения аномалий — выведения зависимостей от разных временных рядов. Однако зависимости, изученные с помощью моделей глубокого обучения, не дают понимания аномалий, и трудно определить основные причины.

Анализ причин

Как только вы обнаружите аномалию, вы захотите узнать, что ее вызвало.

Если набор необычно высок на определенном сайте, вы хотели бы знать, почему.

Может быть, они выдающиеся в вербовке и удержании. Или, может быть, у них есть группа профессиональных пациентов.

Анализ первопричин традиционно является отдельным модулем от обнаружения аномалий.

Для правильного анализа первопричины необходимо знать, какая метрика является аномальной, а затем можно использовать знание предметной области и наблюдаемые данные для определения первопричины.

Как, почему и когда загораются красные огни

Бумага Вэньчжуо Ян, Кун Чжан, Стивен С.Х. Hoi — это замечательный и свежий взгляд на обнаружение аномалий и анализ первопричин с точки зрения причинно-следственных связей. Это перспектива, которая помогает нам понять, как, почему и где загораются красные индикаторы, и поддерживает анализ основных причин и корректирующие действия.

Разбивка проблемы на более мелкие части

Хотя клинические данные на самом деле крошечные по объему, в типичном клиническом испытании они многомерны и имеют 1000–3000 измерений. Не все данные стационарны, и не все типы данных можно обрабатывать одинаково. как мы говорили ранее.

Подход авторов разбивает проблему обнаружения аномалий на ряд более мелких модулей низкой размерности и предлагает естественный способ поиска основных причин. Более простые группы измерений обрабатываются отдельно с использованием свойства модульности причинно-следственных систем.

Что такое модуль?

Свойство модульности каузальных систем относится к идее о том, что сложные системы часто можно разложить на модульные, автономные единицы или модули, каждая из которых имеет отчетливую каузальную структуру.

В биологии человека органы или типы клеток можно рассматривать как отдельные модули, каждый из которых имеет собственный набор внутренних причинно-следственных связей, влияющих на общее поведение организма.

Изучение причинно-следственных связей

Система использует неконтролируемое обучение для изучения структур причинного графа и условных распределений, соответствующих локальным причинным механизмам.

Структуры причинно-следственного графа представляют собой DAG (направленный ациклический граф), который представляет собой тип графической модели, используемой для представления взаимосвязей между переменными. Узлы в DAG представляют переменные, а направленные ребра между узлами указывают на причинно-следственные связи между переменными, как в этом примере.

Подход использует 4-этапный процесс:

  1. Причинное открытие
  2. После причинного обнаружения выполняется обнаружение аномалий.
  3. Подход использует причинно-следственную структуру, лежащую в основе данных. Причинное открытие используется путем анализа данных наблюдений. Когда причинно-следственные связи доступны в виде знаний предметной области или методов причинно-следственного обнаружения на основе данных, подход может легко использовать такую ​​информацию.
  4. Определите первопричины при возникновении аномального события — анализ первопричин. В подходе используется практический алгоритм — PageRank (да, оригинальный алгоритм ранжирования страниц, опубликованный Ларри Пейджем и Сергеем Брином в 1999 году).

Полный текст статьи см. Причинный подход к обнаружению многомерных аномалий временных рядов и основных причин.

Краткое содержание

Я думаю, что эта работа вносит важный вклад в обнаружение аномалий многомерных данных временных рядов.

  1. Он автоматизирует обнаружение аномалий во всем многомерном временном ряду, разбивая задачу на более мелкие, независимые и стационарные модули.
  2. Он выполняет причинное обнаружение и может использовать экспертные знания в предметной области.
  3. Он объединяет обнаружение аномалий с анализом первопричин. Этот последний пункт имеет большое значение, поскольку анализ основных причин обычно рассматривается как отдельный модуль от обнаружения аномалий.

Насколько хорошо этот подход работает с клиническими данными, пока остается открытым вопросом, но, похоже, у него большой потенциал.