Неконтролируемое машинное обучение — это тип машинного обучения, при котором модель обучается на неразмеченных данных, а это означает, что правильный результат неизвестен для каждого входа. Модель должна самостоятельно находить базовую структуру или закономерности в данных. Основная цель неконтролируемого обучения — обнаружить скрытые закономерности или группировки в данных без каких-либо предварительных знаний о результатах.

Существует два основных типа обучения без учителя:

  1. Кластеризация
  2. Обнаружение аномалий
  3. Изучение правил ассоциации

Общий процесс обучения без учителя выглядит следующим образом:

  1. Соберите и подготовьте немаркированные данные.
  2. Выберите подходящий алгоритм и обучите модель, используя данные.
  3. Проанализируйте выходные данные модели и интерпретируйте обнаруженные шаблоны или группы.
  4. Оцените производительность модели, используя такие показатели, как коэффициент силуэта, индекс Дэвиса-Булдина или метод локтя для k-средних.
  5. Настройте модель, изменив параметры или выбрав другой алгоритм.
  6. Примените модель к новым, невидимым данным и интерпретируйте результаты.

Примечание. Модели обучения без учителя обычно требуют большого объема неразмеченных данных для эффективного поиска закономерностей. Количество функций или измерений в данных также может быть проблемой, поскольку модель должна найти способ осмыслить данные в многомерных пространствах. Кроме того, может быть трудно оценить интерпретацию обнаруженных шаблонов и их полезность для конкретной проблемы, и иногда требуется более тщательная проверка, ориентированная на человека.

Кластеризация

Кластеризация — это тип обучения без учителя, целью которого является группировка схожих точек данных в кластеры. Это полезно для исследовательского анализа данных и может помочь выявить закономерности и взаимосвязи в данных. Некоторые популярные алгоритмы кластеризации включают k-means, иерархическую кластеризацию и DBSCAN.

К-означает

Это простой и популярный алгоритм кластеризации. Он работает путем случайной инициализации K центроидов, по одному для каждого кластера. Затем точки данных назначаются кластеру с ближайшим центроидом. Затем центроиды обновляются, чтобы стать средним значением точек данных в кластере, и процесс повторяется до тех пор, пока центроиды не перестанут двигаться или назначения больше не изменятся.

Пять примеров бизнес-задач, которые могут хорошо подойти для k-средних:

  • Маркетинговая сегментация:

K-средних можно использовать для сегментации клиентской базы на отдельные группы на основе демографических данных, истории покупок или других атрибутов. Это может помочь компании более эффективно ориентировать свои маркетинговые усилия, адаптируя сообщения и предложения для различных сегментов клиентов.

  • Кластеризация документов:

K-средних можно использовать для группировки документов, таких как новостные статьи или отзывы клиентов, в разные кластеры на основе их содержания. Это может помочь выявить закономерности в данных и упростить просмотр и поиск в больших коллекциях документов.

  • Обнаружение аномалий:

K-средних можно использовать в неконтролируемых условиях для обнаружения аномалий в данных. Точки данных, которые находятся далеко от центра тяжести кластера, считаются аномалиями, и это можно использовать в области обнаружения мошенничества, обнаружения сетевых вторжений и обнаружения сбоев в производственных процессах.

  • Сжатие изображений:

K-means можно использовать для уменьшения количества цветов в изображении. Группируя похожие цвета, k-средние могут уменьшить количество цветов, используемых для представления изображения, без значительного снижения качества изображения.

  • Астрономия:

K-средние можно использовать для группировки звезд в скопления на основе их положения и яркости. Это может помочь в открытии новых астрономических объектов и в понимании структуры нашей галактики.

Примечание. Имейте в виду, что в большинстве случаев выбор алгоритма — не единственный важный аспект, выбор используемых функций и количество кластеров также являются важными факторами, которые могут оказать большое влияние на результаты.

Иерархическая кластеризация

Это тип кластеризации, который создает иерархию кластеров. Существует два основных типа иерархической кластеризации:

Агломеративная кластеризация начинается с каждой точки данных в качестве своего кластера и объединяет их в более крупные кластеры.

Разделительная кластеризация начинается со всех данных в одном кластере и разбивается на последовательно меньшие кластеры.

Пять примеров бизнес-задач, которые могут хорошо подойти для иерархической кластеризации:

  • Сегментация клиентов:

Иерархическую кластеризацию можно использовать для группировки клиентов в разные сегменты на основе демографических данных, истории покупок или других атрибутов. Это может помочь компании лучше понять свою клиентскую базу и более эффективно нацеливать свои маркетинговые усилия.

  • Классификация документов:

Иерархическую кластеризацию можно использовать для классификации документов, таких как новостные статьи или отзывы клиентов, по разным категориям в зависимости от их содержания. Это может помочь в организации большой коллекции документов и упростить просмотр и поиск.

  • Астрономия:

Иерархическую кластеризацию можно использовать для группировки звезд в кластеры на основе их положения, яркости и других атрибутов, что может помочь в понимании структуры галактики и открытии новых астрономических объектов.

  • Биологическая таксономия:

Иерархическую кластеризацию можно использовать для классификации различных видов в разные группы на основе их генетического состава, физических характеристик или других признаков. Это может помочь в понимании эволюционных взаимоотношений между разными видами.

  • Обнаружение аномалий:

Иерархическую кластеризацию можно использовать для выявления закономерностей в данных, которые отклоняются от нормы. Точки данных, которые не являются частью какого-либо кластера, считаются аномалией, это можно использовать в таких областях, как обнаружение сетевых вторжений, обнаружение мошенничества и обнаружение неисправностей в производственных процессах.

Примечание. Это мощный метод, который можно применять во многих областях. Важно отметить, что выбор критериев связи может оказать большое влияние на окончательные результаты кластеризации.

ДБСКАН

Это алгоритм кластеризации на основе плотности. Он работает, идентифицируя точки в пространстве признаков, которые имеют высокую плотность соседних точек, а затем расширяет кластеры из этих точек. Он устойчив к выбросам и может обрабатывать данные с различной плотностью.

Пять примеров бизнес-задач, которые могут хорошо подойти для DBSCAN:

  • Сегментация клиентов:

DBSCAN можно использовать для группировки клиентов в разные сегменты на основе демографических данных, истории покупок или других атрибутов. Это может помочь компании лучше понять свою клиентскую базу и более эффективно нацелить свои маркетинговые усилия.

  • Обнаружение аномалий:

DBSCAN можно использовать в неконтролируемой обстановке для обнаружения аномалий в данных, это можно использовать в таких областях, как обнаружение сетевых вторжений, обнаружение мошенничества и обнаружение ошибок в производственных процессах.

  • Сжатие изображений:

DBSCAN можно использовать для уменьшения количества цветов в изображении путем группировки похожих пикселей вместе. DBSCAN может уменьшить количество цветов, используемых для представления изображения, без значительного снижения качества изображения.

  • Астрономия:

DBSCAN можно использовать для группировки звезд в скопления на основе их положения, яркости и других характеристик, что может помочь в понимании структуры галактики и открытии новых астрономических объектов.

  • Анализ погоды:

DBSCAN можно использовать для группировки данных о погоде в кластеры на основе температуры, давления, влажности и других атрибутов, это может помочь в понимании структуры погодных условий и выявлении необычных или суровых погодных явлений.

Примечание. Это мощная техника, которую можно применять во многих различных областях. Важно отметить, что выбор значения эпсилон (максимальный радиус вокруг точки) и минимальное количество точек, необходимых для формирования группы, связанной по плотности, может оказать большое влияние на окончательные результаты кластеризации.

Процесс кластеризации

Предварительная обработка:

Первым шагом является предварительная обработка данных путем их очистки и организации. Это может включать такие задачи, как обработка пропущенных значений, удаление выбросов и масштабирование данных.

Выбор алгоритма кластеризации:

Далее вам нужно будет выбрать алгоритм кластеризации, который подходит для ваших данных и ваших целей. Существует множество различных алгоритмов кластеризации, каждый из которых имеет свои сильные и слабые стороны.

Обучение модели:

После того, как вы выбрали алгоритм, вам нужно будет обучить модель, используя ваши данные. Обычно это включает в себя вычисление расстояния между каждой парой точек данных и использование этой информации для идентификации кластеров в данных.

Оценка модели:

После обучения модели вам нужно будет оценить ее производительность. Для оценки качества модели кластеризации можно использовать несколько показателей, таких как индекс Рэнда, скорректированный индекс Рэнда и F-мера.

Оптимизация модели:

В зависимости от результатов оценки вам может потребоваться скорректировать модель или попробовать другие алгоритмы для достижения лучших результатов. Это может включать настройку гиперпараметров модели или использование другого алгоритма кластеризации.

Интерпретация результатов:

Наконец, как только вы получите удовлетворительные результаты, вам нужно будет их интерпретировать и сделать выводы о данных. Это может включать визуализацию кластеров, изучение характеристик точек данных в каждом кластере или использование кластеров для прогнозирования или выполнения некоторых других действий.

Примечание. Важно отметить, что конкретные детали каждого шага будут различаться в зависимости от конкретного используемого алгоритма кластеризации и характеристик данных.

Обнаружение аномалий

Обнаружение аномалий, также известное как обнаружение выбросов, — это метод, используемый для выявления необычных закономерностей в данных, которые не соответствуют ожидаемому поведению. Обнаружение аномалий часто используется при обучении без учителя, поскольку для его работы не требуются размеченные данные.

Существует несколько подходов к обнаружению аномалий, включая методы, основанные на статистике, методы, основанные на расстоянии, и методы, основанные на плотности.

Статистические методы

Основанные на статистике методы обнаружения аномалий основаны на выявлении закономерностей или особенностей данных, которые значительно отклоняются от ожидаемого поведения. Эти методы основаны на предположении, что большая часть данных принадлежит определенному распределению, а аномалии — это точки данных, которые не соответствуют этому распределению.

Существует несколько различных статистических методов обнаружения аномалий, в том числе следующие:

Метод Z-оценки. Этот метод вычисляет z-оценку для каждой точки данных, которая представляет собой количество стандартных отклонений точки от среднего значения. Точки данных с z-оценкой за пределами определенного порога считаются аномалиями. Этот метод предполагает, что данные распределены нормально.

Тест Граббса: этот метод использует статистический тест, чтобы определить, является ли отдельная точка данных выбросом или нет. Этот тест вычисляет вероятность того, что точка данных является выбросом, учитывая среднее значение и стандартное отклонение остальных данных.

Расстояние Махаланобиса. Этот метод вычисляет расстояние между точкой данных и средним значением данных с учетом ковариации данных. Точки данных с большим расстоянием Махаланобиса считаются аномалиями. Этот метод предполагает, что данные распределены нормально.

Тест экстремальных студенческих отклонений (ESD): этот метод похож на тест Граббса, но он может обнаруживать несколько выбросов за один проход. Он использует студенческие остатки, а статистика теста рассчитывается на основе количества выбросов и размера выборки.

Расстояние Кука. Этот метод измеряет влияние каждой точки на подбор регрессии. Точки с большими расстояниями Кука, вероятно, являются выбросами.

Это некоторые из распространенных статистических методов обнаружения аномалий, которые могут помочь в выявлении различных типов выбросов в вашем наборе данных, в зависимости от предположений и используемых вами методов. Важно отметить, что большинство методов зависят от предположения о нормальности данных и могут быть чувствительны к наличию тяжелых хвостов или асимметричных распределений.

Пять примеров бизнес-задач, которые хорошо подходят для статистических методов:

  • Обнаружение мошенничества:

Статистические методы, такие как расстояние Махаланобиса или Z-оценка, могут использоваться для выявления аномальных моделей поведения в финансовых операциях. Это может помочь обнаружить мошеннические действия, такие как мошенничество с кредитными картами или мошенничество со страховкой.

  • Обнаружение сетевых вторжений:

Статистические методы, такие как критерий хи-квадрат или критерий отношения правдоподобия, могут использоваться для выявления необычной сетевой активности, которая может указывать на попытку вторжения.

  • Контроль качества:

Статистические методы, такие как контрольные карты, могут использоваться для мониторинга производственных процессов и выявления случаев, когда процесс отклоняется от своего нормального поведения, что указывает на возникновение проблемы.

  • Медицинский диагноз:

Методы, основанные на статистике, такие как модель смеси Гаусса (GMM), могут использоваться для выявления необычных закономерностей в медицинских данных, которые могут указывать на заболевание или состояние.

  • Интернет-реклама:

Статистические методы, такие как обнаружение точек изменения, могут использоваться для выявления необычных моделей поведения пользователей в Интернете или показателей рекламы, что может указывать на проблему с рекламной кампанией или с пользовательским интерфейсом веб-сайта.

Дистанционные методы

Методы обнаружения аномалий, основанные на расстоянии, выявляют точки данных, которые находятся значительно дальше от своих ближайших соседей, чем ожидалось. Эти методы основаны на идее, что нормальные точки данных будут плотно упакованы вместе, а аномалии будут удалены от других точек.

Существует несколько различных методов обнаружения аномалий на основе расстояния, в том числе следующие:

K ближайших соседей (KNN). В этом методе вычисляется расстояние от каждой точки данных до ее k ближайших соседей. Точки данных с расстоянием, которое намного больше, чем расстояние до их k ближайших соседей, считаются аномалиями.

Фактор локального выброса (LOF). В этом методе используется метод k ближайших соседей, но также учитывается плотность точек данных. Для каждой точки данных рассчитывается локальная плотность, и точка данных считается аномалией, если она имеет более низкую плотность, чем ее k-ближайшие соседи.

DBSCAN: этот метод группирует точки данных в кластеры в зависимости от их расстояния друг от друга. Точки данных, которые находятся дальше от других точек, чем определенный порог расстояния, считаются аномалиями.

Расстояние Махаланобиса на основе расстояния: расстояние Махаланобиса также можно использовать в подходе на основе расстояния для обнаружения выбросов. Расстояние Махаланобиса можно использовать для нахождения точки, наиболее удаленной от центра распределения.

Надежное расстояние Махаланобиса. Более надежную версию расстояния Махаланобиса можно использовать при наличии распределений с тяжелыми хвостами или асимметричных. Этот метод обеспечивает надежные оценки среднего значения и ковариации и менее чувствителен к наличию выбросов, чем традиционное расстояние Махаланобиса.

Это некоторые из распространенных методов обнаружения аномалий на основе расстояния, которые могут помочь в выявлении различных типов выбросов в данных. Важно отметить, что методы, основанные на расстоянии, чувствительны к выбору функции расстояния и плотности данных.

Пять примеров бизнес-задач, которые могут хорошо подойти для методов, основанных на расстоянии:

  • Обнаружение мошенничества:

Методы на основе расстояния, такие как фактор локального выброса (LOF) и k-NN, могут использоваться для выявления аномальных моделей поведения в финансовых транзакциях. Это может помочь обнаружить мошеннические действия, такие как мошенничество с кредитными картами или мошенничество со страховкой.

  • Мониторинг системы:

Методы на основе расстояния, такие как k-NN или метод ближайшего центроида, можно использовать для мониторинга компьютерных систем, выявления необычных моделей использования ресурсов и обнаружения потенциальных сбоев.

  • Медицинский диагноз:

Методы на основе расстояния, такие как k-NN, можно использовать для выявления необычных закономерностей в медицинских данных, которые могут указывать на заболевание или состояние.

  • Обнаружение выбросов в данных геолокации:

Методы, основанные на расстоянии, такие как DBSCAN, могут использоваться для обнаружения необычных закономерностей в данных GPS, например, для идентификации транспортных средств, которые выбирают необычные маршруты.

  • Обнаружение дефектов в производстве:

Методы на основе расстояния, такие как LOF, могут использоваться для обнаружения дефектных деталей в производственном процессе путем выявления случаев, когда измерения определенной детали отклоняются от остальных изготовленных изделий.

Методы на основе плотности

Методы обнаружения аномалий, основанные на плотности, идентифицируют точки данных, которые расположены в областях с низкой плотностью по сравнению с остальными данными. Эти методы основаны на идее, что нормальные точки данных будут плотно упакованы вместе, а аномалии будут расположены в малонаселенных регионах.

Существует несколько различных методов обнаружения аномалий на основе плотности, в том числе следующие:

Один класс SVM: этот метод изучает границу, которая максимально отделяет обычные точки данных от остального пространства признаков. Точки данных, находящиеся далеко за пределами этой границы, считаются аномалиями.

OPTICS: этот метод находит в данных кластеры на основе плотности, а точки данных, которые не являются частью какого-либо кластера, считаются аномалиями.

Изолирующий лес. Этот метод использует алгоритмы дерева решений для изоляции отдельных наблюдений. Количество расщеплений, необходимых для выделения наблюдения, используется для определения оценки аномалии. Точки с более высоким показателем аномалии считаются более аномальными.

Вероятность локального выброса (LOP): LOP – это метод, основанный на плотности, который присваивает вероятность каждой точке, представляющей ее степень аномалии. Он может идентифицировать различные типы выбросов.

Автокодировщик. Автокодировщик — это нейронная сеть, обученная восстанавливать входные данные. Точки с высокой ошибкой восстановления считаются аномалиями.

Это некоторые из распространенных методов обнаружения аномалий на основе плотности, которые могут помочь в выявлении различных типов выбросов в данных. Важно отметить, что методы, основанные на плотности, чувствительны к выбору оценщика плотности и плотности данных.

Алгоритмы обнаружения аномалий используются в различных приложениях, включая обнаружение мошенничества, обнаружение сетевых вторжений и обнаружение сбоев в производственных процессах.

Пять примеров бизнес-задач, которые могут хорошо подойти для методов, основанных на плотности:

  • Обнаружение мошенничества:

Методы на основе плотности, такие как фактор локального выброса (LOF) или интеграл локальной корреляции (LOCI), могут использоваться для выявления аномальных моделей поведения в финансовых транзакциях. Это может помочь обнаружить мошеннические действия, такие как мошенничество с кредитными картами или мошенничество со страховкой.

  • Обнаружение аномалий в пространственных данных:

Методы на основе плотности, такие как DBSCAN, можно использовать для обнаружения аномалий в пространственных данных, таких как трассы GPS, это можно использовать в таких областях, как обнаружение отклонений от маршрута, маркетинг на основе местоположения и геозоны.

  • Обнаружение аномалий в сетевом трафике:

Методы на основе плотности, такие как алгоритм OPTICS или алгоритм HDBSCAN, можно использовать для обнаружения необычных закономерностей в сетевом трафике, их можно использовать для обнаружения вторжений, DDoS-атак или других видов злонамеренной активности.

  • Обнаружение выбросов в многомерных данных:

Методы на основе плотности, такие как плотность локальной корреляции (LCD) или быстрое обнаружение выбросов с использованием коэффициента выбросов на основе угла (ABOD), могут использоваться для обнаружения выбросов в многомерных наборах данных, это может быть полезно в таких областях, как биоинформатика, и компьютерное зрение.

  • Обнаружение аномалий в данных временных рядов:

Методы, основанные на плотности, такие как обнаружение выбросов на основе плотности временных рядов (TDO), могут использоваться для обнаружения аномалий в данных временных рядов, это может быть полезно в таких областях, как финансы и энергетика.

Примечание. Методы на основе плотности эффективно обнаруживают выбросы в данных с высокой размерностью или неравномерной плотностью. Однако выбор метода оценки плотности может сильно повлиять на эффективность этих методов.

Процесс обнаружения аномалий

Предварительная обработка:

Первым шагом является предварительная обработка данных путем их очистки и организации. Это может включать такие задачи, как обработка пропущенных значений, удаление выбросов и масштабирование данных.

Выбор алгоритма обнаружения аномалий:

Затем вам нужно будет выбрать алгоритм обнаружения аномалий, который подходит для ваших данных и ваших целей. Существует множество различных алгоритмов обнаружения аномалий, каждый из которых имеет свои сильные и слабые стороны.

Обучение модели:

После того, как вы выбрали алгоритм, вам нужно будет обучить модель, используя ваши данные. Обычно это включает в себя расчет вероятности того, что каждая точка данных принадлежит нормальному классу или аномальному классу.

Оценка модели:

После обучения модели вам нужно будет оценить ее производительность. Для оценки качества модели обнаружения аномалий можно использовать несколько показателей, таких как точность, полнота и оценка F1.

Оптимизация модели:

В зависимости от результатов оценки вам может потребоваться скорректировать модель или попробовать другие алгоритмы для достижения лучших результатов. Это может включать настройку гиперпараметров модели или использование другого алгоритма обнаружения аномалий.

Интерпретация результатов:

Наконец, как только вы получите удовлетворительные результаты, вам нужно будет их интерпретировать и сделать выводы о данных. Это может включать изучение характеристик точек данных, которые были идентифицированы как аномалии, или использование аномалий для выполнения каких-либо других действий.

Примечание. Важно отметить, что конкретные детали каждого шага будут различаться в зависимости от конкретного используемого алгоритма обнаружения аномалий и характеристик данных.

Изучение правил ассоциации

Изучение правил ассоциации — это метод, используемый в неконтролируемом обучении для выявления взаимосвязей между переменными в больших наборах данных. Алгоритмы обучения правилам ассоциации, такие как алгоритмы априорного роста и роста FP, используются для обнаружения ассоциации или корреляции между переменными в наборе данных.

Основная идея изучения ассоциативных правил состоит в том, чтобы выявить закономерности в данных, которые часто встречаются, и выразить эти закономерности в виде правил «если-то». Часть «если» правила называется антецедентом, а часть «тогда» называется консеквентом.

Пять примеров бизнес-задач, которые могут хорошо подойти для изучения ассоциативных правил:

  • Анализ потребительской корзины:

Изучение правил ассоциации можно использовать для анализа покупательских привычек покупателей путем поиска ассоциаций между различными товарами в магазине. Это может помочь розничным продавцам определить товары, которые часто покупают вместе, и дать рекомендации покупателям.

  • Клиническая поддержка принятия решений:

Изучение ассоциативных правил можно использовать для выявления закономерностей симптомов, диагнозов и планов лечения в электронных медицинских записях. Это может помочь врачам принимать более обоснованные решения о лечении пациентов.

  • Анализ кредитного риска:

Изучение ассоциативных правил можно использовать для выявления закономерностей в финансовых данных, которые могут указывать на высокий уровень кредитного риска. Это может помочь финансовым учреждениям принимать более обоснованные решения об утверждении кредитных заявок или продлении кредита.

  • Кибербезопасность:

Изучение правил ассоциации можно использовать для выявления моделей активности в компьютерной сети, которые могут указывать на угрозу безопасности. Это может помочь организациям быстро выявлять потенциальные нарушения безопасности и реагировать на них.

  • Оптимизация веб-контента:

Изучение правил ассоциации можно использовать для анализа шаблонов кликов, просмотров и покупок на веб-сайте, это может помочь владельцам веб-сайтов понять, какой контент наиболее популярен и какие продукты часто покупаются вместе и, следовательно, используются для оптимизации веб-сайта и повышения коэффициентов конверсии. .

Примечание. Изучение ассоциативных правил можно использовать во многих областях, чтобы находить интересные закономерности в данных и делать прогнозы. Одно из ключевых преимуществ этого подхода заключается в том, что он может выявить интересные взаимосвязи и закономерности, которые могут быть не сразу очевидны при рассмотрении данных по отдельности.

Процесс изучения правила ассоциации

Вот общие шаги, которые обычно выполняются при использовании обучения правилам ассоциации:

Предварительная обработка данных:

Первым шагом является предварительная обработка данных. Это включает в себя очистку данных и удаление любых дубликатов. Данные обычно кодируются как набор транзакций, где каждая транзакция представляет собой набор элементов.

Частый анализ наборов элементов:

После того, как данные были предварительно обработаны, следующим шагом будет определение часто используемого набора элементов. Частый набор элементов — это набор элементов, которые появляются вместе в большом количестве транзакций. Этот шаг обычно выполняется с использованием такой техники, как алгоритм априори или FP-роста.

Создание правила:

После частого анализа наборов элементов следующим шагом является создание правил ассоциации. Правила ассоциации генерируются путем выбора подмножества часто используемых наборов элементов и последующего создания правила для каждого подмножества.

Оценка правила:

После того, как правила ассоциации сгенерированы, они оцениваются на основе некоторых предопределенных показателей, таких как поддержка, уверенность и подъем.

Сокращение правила:

После оценки правил следующим шагом будет удаление правил, которые не соответствуют определенным критериям, таким как минимальная поддержка, достоверность и подъем.

Толкование правил:

После того, как правила были сокращены, следующим шагом будет интерпретация окончательного набора правил. Правила интерпретируются, чтобы понять основные отношения между элементами.

Изучение правил ассоциации можно применять ко многим различным типам данных, включая транзакционные данные, категориальные данные и непрерывные данные. Приложения включают анализ корзины розничного рынка, сегментацию клиентов и обнаружение сетевых вторжений.