Разделение данных может быть выполнено с помощью различных алгоритмов, но разные алгоритмы или входные параметры вызывают разные кластеры или выявляют разные структуры кластеризации. Таким образом, проблема объективной и количественной оценки полученных кластеров или того, является ли полученная структура кластеризации значимой, называется проверкой кластера. Метрики, используемые для проверки кластера, называются индексами/метриками кластеризации.

Индексы кластеризации в основном делятся на 2 группы
- Внутренние индексы
- Внешние индексы

Внутренние индексы

Внутренние индексы характеризуют распределение данных напрямую, оценивая структуру кластеризации исключительно из набора данных.

Указатель бальных залов

Индекс Болла-Холла представляет собой среднее значение средней дисперсии всех кластеров. где средняя дисперсия кластера — это среднее квадратов расстояний точек кластера относительно их центра тяжести.

Индекс Банфельда-Рафтери
Этот индекс представляет собой взвешенную сумму логарифмов следов матрицы дисперсии-ковариации каждого кластера.

Индекс Калински-Харабаса
Он также известен как критерий отношения дисперсии. Оценка определяется как отношение между дисперсией внутри кластера и дисперсией между кластерами.

Индекс Данна
Это отношение минимального внутрикластерного расстояния к максимальному межкластерному расстоянию.

Индекс Дейва-Булдина
Небольшие значения индекса DB соответствуют компактным кластерам, центры которых удалены друг от друга.

Индекс Маулика-Бандиопадхьяя (он же I-индекс, индекс PBM)
Индекс PBM рассчитывается с использованием расстояний между точками и их барицентрами и расстояний между самими барицентрами.

Внешние индексы

Внешний индекс — это мера согласия между двумя разделами, где первый раздел представляет собой априорно известную структуру кластеризации (с точки зрения меток), а второй — результат процедуры кластеризации.

Все предлагаемые индексы основаны на матрице путаницы, представляющей количество пар точек в зависимости от того, считаются ли они принадлежащими одному и тому же кластеру или нет.

Энтропия
Степень, в которой каждый кластер содержит объекты одного класса. Это мера случайности.

Точность
Доля пары точек, которые правильно сгруппированы вместе, к общему числу пар точек, сгруппированных вместе.

Вспомнить
Доля пар точек, которые были правильно сгруппированы вместе, и те, которые должны быть сгруппированы вместе в соответствии с метками классов.

F-мера
Это Гармоническое среднее значение точности и полноты.

Взвешенная F-мера
F-мера, которая дает больше веса для отзыва, чем точность.

Чистота
Еще одна мера степени, в которой кластер содержит объекты одного класса.

Индекс Фолкса-Мэллоуза
Индекс Фолкса-Мэллоуза (FM) представляет собой среднее геометрическое точности и полноты. Измеряет сходство двух кластеризаций набора точек.

Индекс Rand
Отношение пар, которые относятся к одному и тому же или разным кластерам в прогнозируемых и истинных кластеризациях, к общему количеству пар точек. Индекс Рэнда подчеркивает ситуацию, когда пары точек принадлежат одной и той же группе или разным группам.

Индекс Кульчинского
Это среднее арифметическое точности и полноты.

Phi index
Это классический показатель корреляции между двумя дихотомическими переменными.

Индекс Рассела Рао
Это доля совпадений между двумя разделами/кластерами.

Ссылка на реализацию Python:

https://github.com/ntnshrav/ЦИАМС

Использованная литература:

  1. ClusterCrit - R пакет VALCLUST- пакет python
  2. SKLearn Метрики
  3. VALCLUST-пакет python