Наше начало с неконтролируемым обучением было через KNN (K ближайший сосед), который является самым популярным из всех. Вы можете прочитать это здесь".

Вот его уточнение, ниже приведен алгоритм для PAM (разделение вокруг медиодов).

Этап сборки:

  1. Выберите k объектов, чтобы стать медоидами, или, если эти объекты были предоставлены, используйте их как медоиды;
  2. Вычислить матрицу несходства
  3. Назначьте каждое наблюдение ближайшему медоиду;

Фаза обмена:
4. Для каждого кластера искать, если какой-либо объект кластера уменьшается средний коэффициент несходства; если это так, выберите сущность, которая больше всего уменьшает этот коэффициент, в качестве медоида для этого кластера;

5. Если изменился хотя бы один медоид, перейдите к пункту (3), в противном случае завершите алгоритм.

Примечания

  1. Матрица различий (также называемая матрицей расстояний) описывает попарное различие между M объектами. Это квадратная симметричная матрица MxM, в которой (ij)-й элемент равен значению выбранной меры различия между (i)-м и (j)-м объектом. Диагональные элементы либо не учитываются, либо обычно равны нулю.

Мы можем использовать матрицу расстояний в качестве матрицы несходства, где евклидова, манхэттенская (используется при наличии выбросов). Проверьте в этой статье различные варианты матрицы непохожести.

2. K может быть выбран, как описано в этой статье методом локтя, методом силуэта или методом статистики зазоров.

3. В отличие от K-средних, где центроид может не быть фактическим наблюдением, кластеры PAM представлены одним членом этого кластера, где этот медиод представляет наиболее центрально расположенные точки внутри кластера.

Теперь мы рассмотрели средства K, PAM для кластеризации данных, CLARA — еще один аналогичный метод, используемый для больших наборов данных. Чтобы узнать больше об этом, посетите это.

Ресурсы:

  1. https://www.datanovia.com/en/lessons/determining-the-optimal-number-of-clusters-3-must-know-methods/
  2. https://www.xlstat.com/en/solutions/features/correlations-and-similarity-dissimilarity-matrix