K-средство - это секционная кластеризация, метод разделения n точек данных на k секций. Это странный термин, потому что кластеризация - это разделение данных. Фактически, секционная кластеризация проходит через все данные с самого начала, чтобы найти k-раздел. С другой стороны, иерархическая кластеризация начинается с одной точки. Теперь давайте посмотрим на K-means

K-означает

K-средство просто находит k-центроид кластеров. Центроид означает среднее значение каждой координаты точек данных в кластере. Инициализация центроидов действительно важна. Я объясню это позже, и мы просто начнем со случайной инициализации. Мы выбираем первый центроид случайным образом. Мы назначаем каждую точку данных центроиду, который находится рядом с ним. У нас есть k групп. Мы можем вычислить новый центроид путем усреднения координат. Переназначаем точки данных. Повторяйте процесс до тех пор, пока центроиды не изменятся.

  1. Инициализация (случайным образом выберите точку в качестве центроида)
  2. Назначьте каждую точку данных центроиду, который находится рядом с ней.
  3. Вычислить новый центроид путем усреднения координат (мы можем использовать другую статистику, кроме среднего, K-medoid)
  4. Повторите 2, 3, пока он не сойдется. (Центроиды не меняются.)

Примечание. Использование K-средних с категориальными значениями не рекомендуется, поскольку проблему расстояния и центроида решить непросто. = ›K-medoid / PAM можно использовать, чтобы легко найти центроид.

Советы. Я рекомендую масштабировать ввод до k-средних, потому что, если масштаб другой, результат может быть плохим.

Типы

В кластеризации K-средних существует два типа методов кластеризации. Это жесткая кластеризация и мягкая кластеризация. Жесткая кластеризация присваивает точки данных ближайшему центроиду. Мягкая кластеризация дает оценку по всем центроидам. Оценка может быть любой: оценка сходства, расстояние и сходство.

Инициализация

Кластеризация K-средних может предоставить существенно разные кластеры в зависимости от того, как вы инициализируете свой центроид, потому что он может сходиться к локальному минимуму, а не к глобальному минимуму. Не существует идеального способа избежать этого, но я хочу предложить несколько способов.

  • Если вы уже знаете правильный центроид (вы ранее выполняли другую кластеризацию), вы можете выбрать предопределенные центроиды.
  • Вы можете запускать алгоритм несколько раз. Вы можете сравнить каждую модель с помощью методов инерции, она вычисляет расстояния между ее центроидами и делает оценку. Чем меньше инерция (расстояние), тем лучше модель.
  • K-означает ++, он выбирает удаленные друг от друга центроиды. Это делает вероятностное распределение расстояния и делает удаленные точки выбранными центроидами друг друга. Это значение по умолчанию в sci-kit learn.

Находя K, оптимальное количество кластеров

Если вы думаете, что мы можем выбрать только низкую инерцию, это не так просто, потому что чем больше k, тем меньше инерция. Инерция рассчитывается на основе расстояний между точками данных и центроидами. Мы можем использовать инерцию по-другому. мы называем это методом локтя.

Вы можете проверить, где инерция быстро падает, и она устойчива на следующем K. Это похоже на локоть.

Оценка силуэта - еще один способ узнать правильное k. Он рассчитывается как (b-a) / max (a, b). a - среднее расстояние до других экземпляров в том же кластере. b - среднее расстояние до экземпляра следующего ближайшего кластера. Его диапазон составляет [-1, 1]. 1 означает, что экземпляр находится в правильном кластере. 0 означает, что экземпляр находится на границе. -1 означает, что экземпляр мог быть в неправильном кластере. Обычно мы это визуализируем:

Красная пунктирная линия - это среднее значение коэффициента силуэта. Одиночная горизонтальная линия представляет коэффициент силуэта каждого экземпляра.

Ограничение K-средних

Кластеризация K-средних на самом деле является специфическим типом GMM. GMM может иметь ковариации, но k-средние могут иметь единственную дисперсию самого кластера. Следовательно, вы можете разместить только кластер сферической формы.

Эта запись опубликована 23.09.2020.