Введение

Кластеризация — это метод обучения без учителя. Он используется для группировки точек данных, которые похожи ближе друг к другу и дальше от тех, от которых они отличаются.

Типы

Некоторые из алгоритмов кластеризации кратко описаны ниже.

  1. Кластеризация K-средних

Кластеризация k-средних состоит из 5 шагов.

  1. Задайте k количество кластеров.
  2. Все точки данных случайным образом назначаются одному из k кластеров.
  3. Рассчитываются центроиды каждого из кластеров.
  4. Точки данных, расположенные ближе к центроидам кластера, переназначаются.
  5. Центроиды каждого из новых кластеров пересчитываются.

Вышеуказанные два шага повторяются до тех пор, пока переназначение точек данных не произойдет.

Мини-пакетные K-средние

Это модификация K-средних, которая намного быстрее по времени вычислений, но лишь немного хуже по производительности. Здесь мини-пакеты выборок обновляются до ближайшего центроида вместо всех выборок, таких как K-средние. Это особенно полезно, когда набор данных большой.

2. Иерархическая кластеризация

Все точки данных изначально сгруппированы по отдельности в разные кластеры. Затем ближайшие точки данных группируются в определенные кластеры. Кластеры объединяются в зависимости от близости друг к другу, пока не останется только один кластер.

Можно использовать различные меры расстояния, такие как евклидово расстояние, манхэттенское расстояние, расстояние Махаланобиса и т. д. Количество кластеров - это тот, который имеет наибольшее расстояние по вертикали до того, как произойдет разделение.

3. Распространение сходства

Аффинитивное распространение само определяет количество кластеров. Он создает кластеры, отправляя сообщения между парами выборок до сходимости. Набор данных идентифицируется экземплярами, которые являются представителями другой выборки. Сообщения, отправляемые между парами, проверяют пригодность точек в качестве образцов и выбирают экземпляры на каждой итерации. Недостатком этого метода кластеризации является то, что для сходимости требуется относительно много времени по сравнению с другими методами.

Критерии эффективности

Это некоторые из показателей производительности для кластеризации.

  1. Оценка силуэта

Пусть a будет средним расстоянием внутри кластера, а b — средним расстоянием до ближайшего кластера (т. е. расстоянием между образцом и ближайшим кластером, частью которого образец не является). Коэффициент силуэта для каждого образца равен (b-a)/max(a,b). Среднее значение коэффициента силуэта по всем образцам является оценкой силуэта. Он лежит в диапазоне от -1 до 1. 0 указывает на перекрывающиеся кластеры, а отрицательные значения указывают на то, что образец был отнесен к неправильному кластеру.

2. Индекс Рэнда

Оценка Рэнда - это метод наблюдения сходства между двумя методами кластеризации.

Индекс Рэнда определяется по формуле

R = (a+b) / (nC2)

Где:

a: количество раз, когда пара элементов принадлежит одному и тому же кластеру при использовании двух методов кластеризации.

b: количество раз, когда пара элементов принадлежит разностным кластерам по двум методам кластеризации.

nC2: количество неупорядоченных пар в наборе из n элементов.

Индекс Рэнда находится в диапазоне от 0 до 1. 0 указывает на то, что два метода кластеризации не согласуются ни по одному из кластеров пар элементов. В то время как 1 указывает на обратное.

3. Взаимная информация

Взаимная информация — это мера сходства между двумя метками одних и тех же данных. Взаимная информация между кластерами U и V задается как:

Где,

|Уи| — количество выборок в кластере Ui

|VJ| — количество выборок в кластере Vj

Приложения

Некоторые из приложений перечислены ниже.

  • Кластеризация используется при изучении социальных сетей для объединения больших групп людей в сообщества.
  • При генетической кластеризации человека информация о популяционных структурах получается путем кластеризации с использованием сходства генетических данных.
  • В финансах кластеризация была использована кластерными акциями.

Ссылки

  1. Фрей, Брендан Дж. и Делберт Дуек. «Кластеризация путем передачи сообщений между точками данных». наука 315.5814 (2007): 972–976.
  2. https://scikit-learn.org/stable/modules/clustering.html
  3. https://en.wikipedia.org/wiki/Кластерный_анализ
  4. https://machinelearningmastery.com/clustering-algorithms-with-python/