Разделение данных может быть выполнено с помощью различных алгоритмов, но разные алгоритмы или входные параметры вызывают разные кластеры или выявляют разные структуры кластеризации. Таким образом, проблема объективной и количественной оценки полученных кластеров или того, является ли полученная структура кластеризации значимой, называется проверкой кластера. Метрики, используемые для проверки кластера, называются индексами/метриками кластеризации.
Индексы кластеризации в основном делятся на 2 группы
- Внутренние индексы
- Внешние индексы
Внутренние индексы
Внутренние индексы характеризуют распределение данных напрямую, оценивая структуру кластеризации исключительно из набора данных.
Указатель бальных залов
Индекс Болла-Холла представляет собой среднее значение средней дисперсии всех кластеров. где средняя дисперсия кластера — это среднее квадратов расстояний точек кластера относительно их центра тяжести.
Индекс Банфельда-Рафтери
Этот индекс представляет собой взвешенную сумму логарифмов следов матрицы дисперсии-ковариации каждого кластера.
Индекс Калински-Харабаса
Он также известен как критерий отношения дисперсии. Оценка определяется как отношение между дисперсией внутри кластера и дисперсией между кластерами.
Индекс Данна
Это отношение минимального внутрикластерного расстояния к максимальному межкластерному расстоянию.
Индекс Дейва-Булдина
Небольшие значения индекса DB соответствуют компактным кластерам, центры которых удалены друг от друга.
Индекс Маулика-Бандиопадхьяя (он же I-индекс, индекс PBM)
Индекс PBM рассчитывается с использованием расстояний между точками и их барицентрами и расстояний между самими барицентрами.
Внешние индексы
Внешний индекс — это мера согласия между двумя разделами, где первый раздел представляет собой априорно известную структуру кластеризации (с точки зрения меток), а второй — результат процедуры кластеризации.
Все предлагаемые индексы основаны на матрице путаницы, представляющей количество пар точек в зависимости от того, считаются ли они принадлежащими одному и тому же кластеру или нет.
Энтропия
Степень, в которой каждый кластер содержит объекты одного класса. Это мера случайности.
Точность
Доля пары точек, которые правильно сгруппированы вместе, к общему числу пар точек, сгруппированных вместе.
Вспомнить
Доля пар точек, которые были правильно сгруппированы вместе, и те, которые должны быть сгруппированы вместе в соответствии с метками классов.
F-мера
Это Гармоническое среднее значение точности и полноты.
Взвешенная F-мера
F-мера, которая дает больше веса для отзыва, чем точность.
Чистота
Еще одна мера степени, в которой кластер содержит объекты одного класса.
Индекс Фолкса-Мэллоуза
Индекс Фолкса-Мэллоуза (FM) представляет собой среднее геометрическое точности и полноты. Измеряет сходство двух кластеризаций набора точек.
Индекс Rand
Отношение пар, которые относятся к одному и тому же или разным кластерам в прогнозируемых и истинных кластеризациях, к общему количеству пар точек. Индекс Рэнда подчеркивает ситуацию, когда пары точек принадлежат одной и той же группе или разным группам.
Индекс Кульчинского
Это среднее арифметическое точности и полноты.
Phi index
Это классический показатель корреляции между двумя дихотомическими переменными.
Индекс Рассела Рао
Это доля совпадений между двумя разделами/кластерами.
Ссылка на реализацию Python:
https://github.com/ntnshrav/ЦИАМС
Использованная литература:
- ClusterCrit - R пакет VALCLUST- пакет python
- SKLearn Метрики
- VALCLUST-пакет python