Обнаружение аномалий - это очень широкий термин. Обычно это означает, что вы хотите проверить, все ли работает как обычно. Это может быть не только бизнес-метрики, но и самый низкий уровень работы ваших систем. Обнаружение аномалий - это целый процесс. Это не просто стандартный инструмент для измерения данных временных рядов. Подобно DevOps, обнаружение аномалий - это культура, в которой разные роли участвуют в процессе, сочетающем инструменты с человеческим анализом.

Наши ожидания ошибочны или мир вокруг нас изменился? - говорит Александр Пучер, специалист по обнаружению современных аномалий в крупных интернет-компаниях. Недавно у меня была возможность взять интервью у Александра в эпизоде ​​Подкаста Little Tech о едином, всеобъемлющем процессе отчетности и анализа данных.

Обнаружение аномалий - это не просто один уровень понимания. По мере того, как вы спускаетесь по иерархии событий и показателей, разные части организации интересуются разными идеями. В конце концов, вы приходите к желанию иметь что-то, что позволяет обнаруживать аномалии в данных в реальном времени.

Мы можем рассматривать этот «запах дыма» как первый шаг к обнаружению аномалии, и это может быть дорогостоящим без правильной культуры и инструментов, позволяющих знать ранние признаки, которые приводят к проблемам.

Обнаружение аномалий - это часть более крупного процесса. Например, предположим, что у меня есть организация, и есть определение ведения бизнеса как обычно. Затем внезапно возникает проблема. Независимо от того, отслеживается эта проблема или нет, вы чувствуете запах дыма, исходящий от клиентов или пользователей. Это первый шаг к пониманию того, что что-то не так, и зачастую это самая медленная часть всего процесса решения проблемы. Мы можем рассматривать этот «запах дыма» как первый шаг к обнаружению аномалии, и это может быть дорогостоящим без правильной культуры и инструментов, позволяющих знать ранние признаки, которые приводят к проблемам.

Александр - исследователь и разработчик с открытым исходным кодом, который помог создать инструмент под названием ThirdEye для обнаружения аномалий в LinkedIn. ThirdEye является частью экосистемы проектов Apache Pinot, которые оба являются результатом первых уроков, полученных в LinkedIn.

Александр говорит, что «вам нужен дополнительный инструмент, который поможет вам понять, действительно ли изменение данных временных рядов имеет смысл».

ThirdEye как система - это платформа, которая позволяет вам интегрировать ваши метрики (количественную информацию) с событиями (знания или качественную информацию) и комбинировать их, чтобы вы могли различать бессмысленные аномалии и те, которые имеют значение.

Как бизнес, в целом, вы должны быть уверены, что добиваетесь ожидаемого прогресса. Бизнес начинается с примерного ожидания того, куда идут дела. Идеи, связанные с этими метриками, наблюдаются бизнесменами на самых разных уровнях. Когда эти люди обнаруживают в показателях что-то, что расходится с этими ожиданиями, вы получите вопросы о том, почему произошли эти аномалии.

«В LinkedIn наши аналитики данных или специальная операционная группа должны будут ответить на эти вопросы», - сказал Александр. «Ответы часто не столь удовлетворительны или достаточно ясны, чтобы стоило внести изменения, чтобы избежать проблемы».

Целью большей части работы Александра в LinkedIn было обнаружение ответов, которые можно было бы автоматизировать, а не тех, которые требовали творческого поиска. Тратя меньше времени на повторяющийся анализ того, что можно автоматизировать, инженеры могут сосредоточиться на создании дифференцированной ценности для бизнеса.

Александр продолжает: «Когда вы смотрите на данные, чрезвычайно важно знать или пытаться понять процесс, в результате которого были получены данные, которые вы просматриваете».

Если вы возьмете этот процесс интерпретации данных с точки зрения бизнеса, Александр усвоил, пожалуй, наиболее важную вещь: «понять, действительно ли аномалия влияет на бизнес».

Александр отмечает, что знание предметной области - чрезвычайно важная часть того, как разные группы и роли понимают значение метрики, а также аномалии. «Вы должны включить человеческий фактор в наблюдение и интерпретацию значения этого события. Это совместный процесс машины и нескольких людей, чтобы выяснить, что происходит. Если мы сможем сохранить процесс в оперативном режиме и своевременно выявить первопричину, это будет намного менее напряженным для всех », - говорит Александр.

Вы должны включить человеческий фактор в наблюдение и интерпретацию значения этого события.

Когда дело доходит до пандемии COVID-19, которая постоянно удивляет американских политиков, ученых и общественность с тех пор, как в начале мая было зарегистрировано первое заражение, данные временных рядов и диаграммы в значительной степени доминировали в разговоре о государственной политике. Средства массовой информации сосредоточили большую часть своего внимания на диаграммах, и они становятся политизированными, чтобы оправдать повествование о репортажах и государственной политике.

«Что на самом деле означает случай? Случаи определяются по-разному для каждого штата США, - говорит Александер, - обычно есть одна организация, которая контролирует принятие решения о том, что такое просмотр страницы. Многие части бизнеса имеют разные определения сущности ».

Здесь Александр возвращается к некоторым фундаментальным идеям, лежащим в основе предметно-ориентированного проектирования, который представляет собой целый процесс и культуру, определяющую, как бизнес контекстуализирует значение определенных предметных сущностей, используемых в API.

В рамках моего разговора с Александром есть несколько важных выводов, которые стоит упомянуть. Похоже, существуют плохо изученные организационные процессы и методология разработки показателей для анализа. В разработке программного обеспечения у нас есть методологии, такие как DDD или DevOps, которые помогают разработчикам понять, как сотрудничать с бизнесом при разработке программного обеспечения. Применительно к процессу измерения и анализа данных эти организационные методы оставлены на усмотрение экспериментов и самостоятельных исследований. Возможно, для повсеместного улучшения аналитики нам нужен более широкий подход к разработке, сбору и отчетности по показателям.

Всю беседу с Александром можно послушать на The Little Tech Podcast.

Чтобы пообщаться с Александром и другими участниками сообщества Apache Pinot, присоединяйтесь к разговору в Slack.