Сегодня предприятия производят невообразимые объемы данных при каждом взаимодействии, операции и транзакции. Широко признано, что использование этих больших данных является движущей силой успеха. Опрос 2019 года, посвященный большим данным и аналитике, показывает, что 62% респондентов сообщают о достижении измеримых результатов от своих инвестиций в большие данные и A1(1). Что делает большие данные важными, так это то, как они прокладывают путь для науки о данных благодаря своим сложным инструментам и технологиям, которые информируют организации о важных для бизнеса решениях в нужное время.

Обнаружение аномалий и анализ данных

Обнаружение аномалий (или обнаружение выбросов) — это процесс, который идентифицирует точки данных, события и/или наблюдения, которые отклоняются от нормального поведения набора данных. Аномальные данные могут указывать на критические инциденты, такие как технический сбой, а также на потенциальные возможности для бизнеса, такие как правильный канал для использования при предоставлении скидки клиенту.

Теоретически шаблоны определяются определенными параметрами, влияющими на поведение общих данных. Эти параметры характеризуют нормальное поведение данных, и поэтому определение этих параметров становится критически важным для выявления аномалий в данных.

Однако в практическом мире сценарии редко следуют строгим шаблонам. Постоянно меняющиеся рыночные силы постоянно изменяют то, что является «нормальным». Чтобы корпоративные данные были эффективными, важно знать, как, когда и нужно ли реагировать на меняющуюся динамику и аномалии, играющие жизненно важную роль в обеспечении реагирования бизнеса. Таким образом, при обсуждении аномальных данных возникают два важных вопроса:

· Какие признаки и сколько из них выбираются при обнаружении аномалий?

· Можно ли предположить распределение значений для выбранных признаков?

Чтобы ответить на эти вопросы, нужно сначала понять методы обнаружения аномалий, используемые в отрасли.

Методы, используемые при обнаружении аномалий

Самый простой метод обнаружения аномалий включает в себя нанесение данных на график и наблюдение за теми точками, которые разбросаны вдали от большинства. С промышленной точки зрения для обнаружения аномалий используются следующие методы:

Простые статистические методы.Аномалии выявляются с использованием статистических свойств, а именно среднего значения, медианы, моды и квантилей. Хотя эти методы полезны, когда аномалии сильно отклоняются от нормальных точек данных, они не так эффективны при выявлении аномалий, которые находятся ближе к «нормальным» данным. Другими словами, сезонные аномалии нелегко выявить. Следовательно, в этом сценарии многомерный анализ (аномалии, на которые влияют несколько признаков) становится затруднительным.

Методы машинного обучения. Существует несколько методов машинного обучения для выявления аномалий. К ним относятся:

· Обнаружение аномалий на основе плотности — этот метод включает алгоритмы K-ближайших соседей (K-NN) и локальных факторов выбросов, которые используют матрицы расстояний и относительное расстояние между точками данных соответственно для выявления аномальных данных.

· Обнаружение аномалий на основе кластеров — K-средние — это популярный алгоритм кластеризации, который разделяет данные, используя сходство в характеристиках данных. Кластеры определяются на основе расстояния точек данных от местных центроидов.

· Обнаружение аномалий на основе машины опорных векторов (SVM) — SVM представляет собой контролируемый алгоритм машинного обучения, который обучается путем разделения обучающего набора на аномальные и нормальные точки данных на основе мягкого порога. SVM также поддерживает неконтролируемые расширения, такие как OneClassCVM.

Как обнаружить аномалии с помощью Isolation Forest

Изолирующий лес — это неконтролируемый алгоритм машинного обучения, который обнаруживает аномалии и прогнозирует оценки аномалий для каждой точки данных в наборе выборки. Isolation Forest уникален тем, что фокусируется исключительно на выявлении выбросов, а не на обычных данных. Таким образом, это мощный инструмент для обнаружения аномалий в многомерных или многовариантных наборах данных.

Изолирующий лес использует подход дерева решений и особенно полезен, когда невозможно предположить распределение значений. Он работает на двух предположениях:

· Возникновение аномалий в данных очень редко.

· Особенности аномалий значительно отличаются от особенностей нормальных данных.

Вот как работает алгоритм: из выборки выбираются подмножество данных и конкретный признак. Функция получает случайное значение разделения (или порог). Затем данные разделяются на аномалии и нормальные точки данных путем сравнения их с этим пороговым значением функции. Аномалии, характеристики которых резко отличаются от нормальных точек данных, легко отделяются у корней деревьев. Последующие узлы делятся на основе других случайно выбранных признаков. Этот процесс повторяется на случайно выбранных подмножествах данных. Затем эти деревья решений усредняются в один ансамбль деревьев.

Рисунок 1. Выделение аномалии в дереве решений

Оценка аномалии присваивается каждому наблюдению после сравнения его со значением разделения в каждом узле. Узлы, содержащие аномалии, часто будут иметь меньшую среднюю «длину пути», которая представляет собой количество ребер от корня до конечного узла.

В зависимости от оценки аномалии можно сделать следующие выводы:

  • Значения, близкие к 1, предполагают, что наблюдение является аномалией.
  • Значения, близкие к 0,5, указывают на то, что алгоритм не различает четко аномальные и нормальные данные.
  • Значение, близкое к 0, указывает, что наблюдение является нормальной точкой данных.

Изолирующий лес — это относительно новый метод обнаружения аномалий, который хорошо подходит для работы с потоковыми данными в реальном времени. Он имеет свои преимущества и недостатки, как указано ниже:

Применение обнаружения аномалий в телекоммуникационной отрасли

Некоторые из наиболее важных вариантов использования обнаружения аномалий в телекоммуникационной отрасли:

Аналитика использования клиентами — выявление того, как клиенты используют продукты, и выявление аномально высокого уровня использования (аномалии). Такие клиенты или планы продуктов могут быть пересмотрены, чтобы уменьшить перегрузку сети.

Эффективные перекрестные продажи. Выявление клиентов, ранее подписавшихся на голосовые пакеты, которые теперь начинают потреблять больше услуг передачи данных. Им могут быть рекомендованы альтернативные планы с пакетами данных.

Сокращение оттока клиентов – выявление клиентов (аномалий), которые используются минимально и которые могут уйти. Привлекательные предложения/планы могут быть адаптированы для увеличения использования и увеличения доходов.

Энергосбережение — выявление сайтов сотовой связи с аномально низкой фиксацией и использованием (аномалия). Эти сайты могут быть снабжены меньшей мощностью или закрыты для снижения затрат на электроэнергию или перемещены для улучшения качества обслуживания клиентов.

Снижение рисков. Использование обнаружения аномалий в данных о безнадежных долгах может предоставить новые шаблоны, которые сделают модель кредитного риска более надежной.

Повышение эффективности службы поддержки. Выявление повторяющихся жалоб (аномалий) может помочь агентам провести анализ первопричин для эффективного решения проблемы.

Как мы выявили аномалии в подписке

Проблема.Операторы связи часто имеют клиентов, которые используют свои подписки непропорционально, что снижает качество работы в сети для других. Некоторыми примерами являются клиенты с безлимитными тарифными планами с резкой загрузкой данных, что приводит к перегрузке сети, или клиенты, которые в основном получают входящие звонки и не подписываются на предложения, что приводит к ограниченному доходу. Оператор связи, стремящийся увеличить рост выручки, хотел определить этих клиентов и перевести их на минимальные месячные планы.

Подход Subex. Поскольку необходимо было выполнить многофакторный анализ таких функций, как покупка подписки на данные, использование данных, использование голосовой связи и пакеты голосовой подписки, в качестве подходящего метода обнаружения аномалий был выбран Isolation Forest.

Модель идентифицировала тех клиентов, чье поведение не соответствовало выбранным характеристикам. Сюда входят клиенты без подписок и с низким исходящим использованием.

Рисунок 2. Нормальное использование клиентов по сравнению с аномалиями, выявленными с помощью Isolation Forest

Как видно на рис. 2, Isolation Forest значительно упрощает визуализацию оператором клиентов с обычными моделями использования (выпадающие значения), а также активных клиентов с ограниченным использованием (выбросы).

Результаты. Выявление аномальных данных — низкооплачиваемых клиентов — помогло клиенту принять некоторые стратегические решения. Глядя на географию выбросов, оператор соответственно пересмотрел свои планы подписки и сократил срок действия с 60 дней и 90 дней до 30 дней. Это побуждает клиентов продолжать покупать новые продукты, чтобы поддерживать действие плана. Немедленными преимуществами, полученными в результате этого, стали увеличение количества исходящих вызовов на 7,9% и увеличение среднего использования данных на 56% в клиентской базе, которая отличается от других. За три месяца общий доход в этом регионе увеличился почти на 3,5%.

Вывод

Точно так же, как обычные данные выявляют ключевые закономерности, аномальные данные выявляют критические бизнес-инциденты, которые могут потребовать немедленных или стратегических действий. Обнаружение аномалий — важная возможность для организаций, работающих с данными. Isolation Forest, неконтролируемый алгоритм машинного обучения, представляет собой новый и эффективный метод обнаружения аномалий в выборочных данных с использованием многомерного анализа. Это жизнеспособное решение для операторов связи, которые хотят понять, как увеличить доход, повысить эффективность и снизить затраты.

Ссылки

(1) https://newvantage.com/wp-content/uploads/2018/12/Big-Data-Executive-Survey-2019-Findings-Updated-010219-1.pdf

(2) https://www.grandviewresearch.com/industry-analysis/telecom-analytics-market

Написал:
Калпита
Мандал
Аналитик данных Subex