Основное руководство по анализу силуэта

Кластеризация - это метод машинного обучения, который относится к группировке немаркированного набора данных. k-Means - это популярный алгоритм кластеризации, который группирует или группирует набор данных таким образом, что точки данных в одном кластере похожи друг на друга, тогда как точки данных в разных кластерах сильно различаются.

Для обучения надежной модели k-средних необходимо настроить гиперпараметры. n_clusters - гиперпараметр, который нужно настроить для выбора оптимального количества кластеров для группировки точек данных. Условие оптимальной кластеризации возникает, когда точки данных в одних и тех же кластерах достаточно близки, а все кластеры удалены друг от друга.

Существуют различные методы определения оптимального количества кластеров, из которых наиболее популярным является метод локтя. В этой статье мы обсудим методы анализа силуэтов, которые можно использовать для поиска оптимального количества кластеров. Метод анализа силуэтов также можно использовать для выявления и удаления выбросов из набора данных.

Что такое метод локтя?

Метод Elbow относится к графику между метрикой производительности кластеризации и количеством кластеров. Линейные графики образуют локтевую структуру, поэтому это называется методом локтя.

Чтобы сравнить эффективность метода локтя и анализа силуэта, я буду использовать случайный выборочный двумерный набор данных, созданный с помощью функции Sklearn’s make_blob.

Чтобы вычислить оптимальное количество кластеров с помощью кластеризации k-средних, можно вычислить метрику производительности для каждого значения кластера и построить диаграмму изгиба для наблюдения за лучшим значением кластера.

Из приведенного выше графика можно заметить, что оптимальное количество кластеров составляет 4 для образца набора данных. Инерция относится к сумме квадратов расстояний от точек данных до их ближайшего центроида кластера.

Анализ силуэта:

Коэффициент силуэта или оценка силуэта рассчитывается на основе сравнения его плотности и разделения кластеров. Он измеряет оценку, которая измеряет, насколько похожи точки данных в их собственных кластерах по сравнению с их ближайшим кластером. Значение оценки силуэта находится в пределах [-1, 1].

Оценка силуэта для кластера - это среднее значение коэффициента силуэта всех точек данных в этом кластере.

Here,
s(i): Silhouette coefficient of i'th data point
a(i): Average distance of i'th data point to all the other data points in the same cluster
b(i): Average distance of i'th data point to all the data point in the nearest cluster

Как вычислить оптимальные кластеры с помощью Silhouette Score?

Silhouette Score измеряет, насколько близко каждая точка данных находится к другим точкам данных в том же кластере и насколько далеко она от точек данных соседнего или ближайшего кластера. Диапазон оценок Silhoutte между [-1, 1], где оценка +1 указывает, что образец находится далеко от соседних кластеров, оценка 0 указывает, что точка данных находится на границе или близко к другому кластеру, отрицательная оценка (‹0) означает, что точки данных назначены неправильному кластеру.

На приведенных выше графиках отображается оценка силуэта для каждой точки данных, сгруппированных в группу [2, 3, 4, 5]. Наблюдения на графиках анализа силуэтов:

  • Для количества кластеров = 2 и 3 мы наблюдаем множество точек с оценкой силуэта меньше среднего значения. Толщина графиков силуэтов сильно различается между кластерами 0 и 1.
  • Для кластера = 5 или более мы можем наблюдать, что кластеры 0 и 4 имеют все точки данных меньше, чем средняя оценка силуэта.
  • Для кластера = 4, большинство точек данных из всех 4 кластеров имеют индивидуальный балл по силуэту выше, чем средний балл по силуэту.

Следовательно, количество кластеров = 4 является лучшим выбором для группировки точек данных, так как толщина графиков силуэтов одинакова, и большинство точек данных имеют оценку силуэта выше среднего значения.

Реализацию вышеуказанных графиков можно найти в документации scikit-learn.



Вывод:

Анализ силуэта - удобный инструмент для вычисления оптимального количества кластеров, наблюдая за графиками силуэтов. Его можно использовать поверх локтевого метода. Точки данных с отрицательной оценкой силуэта можно рассматривать как выбросы и игнорировать для дальнейшего анализа.

Использованная литература:

[1] Документация Sklearn: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.sil Silhouette_score.html

Понравилась статья? Станьте средним участником, чтобы продолжить обучение без ограничений. Если вы воспользуетесь следующей ссылкой, я получу небольшую часть вашего членского взноса без каких-либо дополнительных затрат.



Спасибо за чтение