Измерение различий в похожих точках кластера

Кластеризация — это неконтролируемый метод машинного обучения, используемый для обнаружения интересных закономерностей в данных. Примером может служить группировка похожих клиентов на основе их поведения, создание спам-фильтра, выявление мошеннических или преступных действий.

В кластеризации похожие элементы (или точки данных) группируются вместе. Однако мы хотим не только сгруппировать похожие предметы вместе, но и измерить, насколько они похожи или различны. Чтобы решить эту проблему, мы можем легко создать алгоритм подсчета очков.

В этом примере я использую простой метод кластеризации k-средних. Вы можете прочитать об этом здесь". Мы генерируем изотропные гауссовы блобы для кластеризации с помощью sklearn.datasets.make_blobs.

Затем мы строим простой алгоритм k-средних с 3 кластерами и получаем центроиды этих кластеров.

Теперь, чтобы оценить каждую из точек в разных кластерах, мы можем оценить, насколько они близки к центру кластера, и сравнить это с самой дальней точкой в ​​кластере. Центр центроида обозначает идеальное положение точки кластера, в то время как самая дальняя точка центроида является наихудшей точкой кластера.

В этом примере наш набор данных включает 2 столбца, поэтому мы можем легко измерить сумму их квадратов разностей. Эти расстояния могут быть преобразованы в проценты для облегчения интерпретации.

Измерения не только дали бы нам оценку того, насколько далеко точка находится от центра скопления, но и насколько они близки к возможному падению к следующему скоплению. Это особенно интересно для таких задач, как сегментация клиентов, и в этом случае мы хотели бы проверить, как каждый принятый маркетинговый подход влияет на клиента.

Я надеюсь, что это было полезно для вас. С нетерпением жду ваших комментариев здесь, а пока вы также можете подписаться на меня в twitter, Linkedin и medium.

Если вам понравилась эта статья, вы можете купить мне кофе ☕️.

Вы также можете ознакомиться с моей статьей Создание кластеров клиентов с помощью неконтролируемого машинного обучения здесь.

Вилен Данк😊