Кластеризация — это организация сущностей из входных данных в конечное число подмножеств или кластеров с целью максимального сходства внутри кластера, максимального различия между кластерами.

Приложения алгоритмов кластеризации.

  1. Персонализация и целевой рынок. Цель состоит в том, чтобы сгруппировать клиентов на основе схожих характеристик, таких как привычки расходов, для разработки целевой кампании.
  2. Классификация документов: цель состоит в том, чтобы классифицировать или сгруппировать документы на основе схожего содержания, теги документа можно использовать для создания дайджеста для сводки документа.
  3. Обнаружение мошенничества: цель здесь — изолировать используемые случаи на основе близости к историческим кластерам, которые представляют мошенническое поведение.
  4. Медицинская визуализация: ее можно использовать для определения различных типов тканей на трехмерном изображении.
  5. Городское планирование: это можно использовать для определения групп и типов домов на основе их цен на жилье и географического положения.

Алгоритмы кластеризации можно разделить на

  1. Кластеризация на основе центроидов: этот алгоритм организует кластеры в кластеры на основе удаленности элементов от центроидов кластеров.
  2. Кластеризация на основе плотности: элементы кластера алгоритма, которые тесно связаны друг с другом. Он объединяет кластеры произвольной формы.
  3. Кластеризация на основе распределения. Здесь предполагается, что данные имеют неотъемлемый тип распределения, такой как нормальное распределение. Алгоритм кластера, основанный на вероятности принадлежности члена к определенному распределению.
  4. Иерархическая кластеризация: построенный алгоритм представляет собой дерево кластеров, это лучше всего подходит для иерархических данных, таких как таксономия.