Обеспечение упреждающего и защищенного от рисков бизнеса.

Введение

В этой статье рассматриваются пять основных качеств систем обнаружения аномалий, которые вы должны знать как специалист по работе с данными.

Обнаружение аномалий — это важнейшее приложение науки о данных, которое предлагает превосходную ценность для защиты бизнеса и обеспечения упреждающей защиты от угроз. Это также может помочь обнаружить возникновение неисправностей в сложных машинах, таких как ветряные турбины, посредством мониторинга состояния.

Решения по обнаружению аномалий могут варьироваться от установки простых статистических пороговых значений на основе знаний предметной области до создания сложных систем машинного обучения для работы в режиме реального времени. Например, когда данные распределены нормально, точки данных, выходящие за пределы 2–3 стандартных отклонений от среднего значения, могут быть извлечены как аномалии для дальнейшего исследования.

Конечно, в разных подходах к построению систем обнаружения аномалий есть компромиссы, и не все они предлагают одинаковое качество решения.

5 основных качеств систем обнаружения аномалий

Теперь давайте обсудим пять основных атрибутов превосходной системы обнаружения аномалий.

  1. Отзывчивость

Когда решения по обнаружению аномалий создаются для обнаружения угроз в критически важных областях, таких как энергетические и транспортные системы, они должны действовать быстро, чтобы предотвратить серьезный ущерб.

Во многих реальных приложениях результаты обнаружения аномалий наиболее полезны до того, как будет нанесен ущерб.

Многие реализации и руководства по моделям обнаружения аномалий основаны на статических или исторических данных, которые не учитывают сложность реагирования. Однако это может способствовать или испортить успех вашего проекта в реальных приложениях.

Например, более быстрое реагирование систем обнаружения аномалий позволит предприятиям сократить время реагирования на сбои платформы, что приведет к общему повышению удовлетворенности клиентов.

Полезный совет.Распараллеливание задач моделирования может помочь ускорить реакцию системы в приложениях реального времени, особенно в тех случаях, когда требуется онлайн-обучение машин. Кроме того, автономное обучение также может помочь сократить время вычислений во время логического вывода.

2. Точность

Слишком много ложных срабатываний за короткий период только заставят заинтересованные стороны игнорировать предупреждения вашей системы, и это сделает решение бесполезным для любого практического применения.

Обманешь меня один раз, это на тебе, но если ты обманешь меня дважды, это на мне.

Следовательно, системы обнаружения аномалий должны обладать высокой точностью при удовлетворительной чувствительности.

Аномалии, как правило, редки, и модели могут чрезмерно компенсировать это во время обучения. Например, ложные тревоги могут возникать, когда модель слишком чувствительна к аномалиям. Следовательно, классификация нормальных рабочих данных как аномалий в процессе.

Полезные советы.В задачах классификации эту проблему можно решить во время обучения, выбрав правильные показатели, которые решают вопросы точности, такие как оценка F1 и площадь под кривой рабочей характеристики приемника (ROC). Для задач регрессии точность можно повысить за счет повышения порога обнаружения, тем самым предупреждая заинтересованные стороны только о самых серьезных аномалиях.

3. Масштабируемость

Цель любого бизнеса — рост. Следовательно, интегрированные системы, такие как системы обнаружения аномалий, должны быть масштабируемыми для достижения бизнес-целей. Кроме того, на скорость отклика системы может повлиять масштаб, если это не будет принято во внимание на этапе проектирования. Стоимость вычислений также может значительно возрасти при крупномасштабном развертывании, что сделает решение непрактичным.

Например, более простое и менее точное решение может быть предпочтительнее более сложного и чуть более точного решения, которое менее масштабируемо для обработки большего количества данных.

Полезные советы. Накладные расходы на вычисления можно решить путем переформатирования кода и распараллеливания, где это возможно. Кроме того, сложные методы могут быть заменены более эффективными в вычислительном отношении, но не менее точными методами.

4. Надежность

Надежная система обнаружения аномалий должна справляться с такими проблемами качества данных, как пропущенные значения, особенно в приложениях реального времени. Система также должна уметь обрабатывать плохие примеры, которые могут исказить модель во время обучения.

Например, некоторые функции могут быть недоступны во время вывода. Надежная система обнаружения аномалий должна справляться с такими случаями.

Полезные советы.Проблемы с надежностью можно решить в конвейере данных, чтобы правильно отразить различные проблемы с качеством данных. Кроме того, можно использовать некоторые алгоритмы (например, случайные леса), устойчивые к пропущенным значениям и выбросам.

5. Интерпретируемость

Чтобы заинтересованные стороны могли действовать упреждающе, результаты обнаружения аномалий должны быть интерпретируемыми. Это ключ к построению более устойчивых бизнес-процессов. Кроме того, интерпретируемые результаты помогают инженерам во время анализа первопричин.

Общая дилемма машинного обучения может возникнуть, когда более сложные и точные модели менее поддаются интерпретации, а более простые и менее точные модели дают более объяснимые результаты.

Например, интерпретируемость может быть потеряна во время разработки признаков при использовании таких методов, как анализ основных компонентов (PCA), для уменьшения размерности данных.

Полезные советы. Могут быть разработаны сложные и простые решения машинного обучения, где первое используется для точного обнаружения аномалий, а второе используется для предоставления пояснений по мере необходимости. Замена методов, снижающих интерпретируемость результатов, также может быть полезной.

Выводы

В этой статье мы рассмотрели основные качества систем обнаружения аномалий: быстродействие, точность, масштабируемость, надежность и интерпретируемость. Эти атрибуты необходимо учитывать на этапе проектирования, чтобы получить максимальную отдачу от вашего проекта по науке о данных.

Надеюсь, вам понравилась эта статья, до следующего раза. Ваше здоровье!

Рекомендации

  1. Создание системы обнаружения аномалий в реальном времени для временных рядов в Pinterest

2. Чувствительность и специфичность машинного обучения

Вы можете получить доступ к более информативным статьям от меня и других авторов, подписавшись на Medium по моей реферальной ссылке ниже, которая также поддерживает мои статьи. Спасибо!