Основное руководство по анализу силуэта
Кластеризация - это метод машинного обучения, который относится к группировке немаркированного набора данных. k-Means - это популярный алгоритм кластеризации, который группирует или группирует набор данных таким образом, что точки данных в одном кластере похожи друг на друга, тогда как точки данных в разных кластерах сильно различаются.
Для обучения надежной модели k-средних необходимо настроить гиперпараметры. n_clusters
- гиперпараметр, который нужно настроить для выбора оптимального количества кластеров для группировки точек данных. Условие оптимальной кластеризации возникает, когда точки данных в одних и тех же кластерах достаточно близки, а все кластеры удалены друг от друга.
Существуют различные методы определения оптимального количества кластеров, из которых наиболее популярным является метод локтя. В этой статье мы обсудим методы анализа силуэтов, которые можно использовать для поиска оптимального количества кластеров. Метод анализа силуэтов также можно использовать для выявления и удаления выбросов из набора данных.
Что такое метод локтя?
Метод Elbow относится к графику между метрикой производительности кластеризации и количеством кластеров. Линейные графики образуют локтевую структуру, поэтому это называется методом локтя.
Чтобы сравнить эффективность метода локтя и анализа силуэта, я буду использовать случайный выборочный двумерный набор данных, созданный с помощью функции Sklearn’s make_blob.
Чтобы вычислить оптимальное количество кластеров с помощью кластеризации k-средних, можно вычислить метрику производительности для каждого значения кластера и построить диаграмму изгиба для наблюдения за лучшим значением кластера.
Из приведенного выше графика можно заметить, что оптимальное количество кластеров составляет 4 для образца набора данных. Инерция относится к сумме квадратов расстояний от точек данных до их ближайшего центроида кластера.
Анализ силуэта:
Коэффициент силуэта или оценка силуэта рассчитывается на основе сравнения его плотности и разделения кластеров. Он измеряет оценку, которая измеряет, насколько похожи точки данных в их собственных кластерах по сравнению с их ближайшим кластером. Значение оценки силуэта находится в пределах [-1, 1].
Оценка силуэта для кластера - это среднее значение коэффициента силуэта всех точек данных в этом кластере.
Here, s(i): Silhouette coefficient of i'th data point a(i): Average distance of i'th data point to all the other data points in the same cluster b(i): Average distance of i'th data point to all the data point in the nearest cluster
Как вычислить оптимальные кластеры с помощью Silhouette Score?
Silhouette Score измеряет, насколько близко каждая точка данных находится к другим точкам данных в том же кластере и насколько далеко она от точек данных соседнего или ближайшего кластера. Диапазон оценок Silhoutte между [-1, 1], где оценка +1 указывает, что образец находится далеко от соседних кластеров, оценка 0 указывает, что точка данных находится на границе или близко к другому кластеру, отрицательная оценка (‹0) означает, что точки данных назначены неправильному кластеру.
На приведенных выше графиках отображается оценка силуэта для каждой точки данных, сгруппированных в группу [2, 3, 4, 5]. Наблюдения на графиках анализа силуэтов:
- Для количества кластеров = 2 и 3 мы наблюдаем множество точек с оценкой силуэта меньше среднего значения. Толщина графиков силуэтов сильно различается между кластерами 0 и 1.
- Для кластера = 5 или более мы можем наблюдать, что кластеры 0 и 4 имеют все точки данных меньше, чем средняя оценка силуэта.
- Для кластера = 4, большинство точек данных из всех 4 кластеров имеют индивидуальный балл по силуэту выше, чем средний балл по силуэту.
Следовательно, количество кластеров = 4 является лучшим выбором для группировки точек данных, так как толщина графиков силуэтов одинакова, и большинство точек данных имеют оценку силуэта выше среднего значения.
Реализацию вышеуказанных графиков можно найти в документации scikit-learn.
Вывод:
Анализ силуэта - удобный инструмент для вычисления оптимального количества кластеров, наблюдая за графиками силуэтов. Его можно использовать поверх локтевого метода. Точки данных с отрицательной оценкой силуэта можно рассматривать как выбросы и игнорировать для дальнейшего анализа.
Использованная литература:
[1] Документация Sklearn: https://scikit-learn.org/stable/modules/generated/sklearn.metrics.sil Silhouette_score.html
Понравилась статья? Станьте средним участником, чтобы продолжить обучение без ограничений. Если вы воспользуетесь следующей ссылкой, я получу небольшую часть вашего членского взноса без каких-либо дополнительных затрат.
Спасибо за чтение