Кластеризация в машинном обучении

Кластеризация — это процесс организации группы объектов таким образом, чтобы объекты в одной группе были более похожи друг на друга, чем на объекты в любой другой группе. Мы называем группу кластером, и каждый кластер имеет уникальный идентификатор, называемый идентификатором кластера.

Кластеризация — это тип метода обучения без учителя, при котором алгоритмы работают с немаркированным набором данных.

Алгоритм кластеризации чем-то похож на алгоритм классификации, но разница заключается в типе набора данных, который мы используем. В алгоритмах классификации мы работаем с помеченным набором данных, тогда как при кластеризации мы работаем с неразмеченным набором данных.

Чтобы больше понять кластеризацию, меньше смотреть на торговый центр, мы можем увидеть, как разные предметы / продукты с одинаковым сходством в использовании, например, раздел молочных продуктов, раздел овощей, туалетные принадлежности и т. Д., Это помогает легко находить вещи. . Точно так же работает и метод кластеризации.

Техника кластеризации может широко использоваться в различных задачах. Некоторые наиболее распространенные варианты использования этой техники:

Сегментация рынка
Статистический анализ данных
Анализ социальных сетей
Сегментация изображения
Обнаружение аномалий и т. д.

Типы методов кластеризации

Разделение кластеров
Кластеризация на основе плотности
Кластеризация на основе модели распределения
Иерархическая кластеризация
Нечеткая кластеризация

Разделение Кластеризация

Это тип кластеризации, который делит данные на неиерархические группы. Наиболее распространенным примером кластеризации с разделением является алгоритм кластеризации K-средних. Используя последовательность наблюдений, K-Means используется для разделения и разделения групп данных на k кластеров. Каждое наблюдение пытается упорядочить конкретную точку данных в кластер, ближайший к его ближайшему среднему или фокусу кластера.

Кластеризация на основе плотности

Пока плотная область может быть соединена, метод кластеризации на основе плотности объединяет чрезвычайно плотные области в кластеры, что приводит к распределениям любой формы. Этот алгоритм выполняет это, находя несколько кластеров в наборе данных и объединяя регионы с высокой плотностью в кластеры. Плотные области в пространстве данных отделены друг от друга более разреженными областями.

Кластеризация на основе модели распределения

В методе кластеризации на основе модели распределения данные разделяются на основе вероятности принадлежности набора данных к определенному распределению. Группировка выполняется путем предположения, что некоторые распределения обычно распределение Гаусса.

Иерархическая кластеризация

Поскольку нет необходимости указывать количество создаваемых кластеров, иерархическая кластеризация может использоваться как альтернатива секционированной кластеризации. В этом методе набор данных делится на кластеры, чтобы сформировать древовидную структуру, известную как дендрограмма. Наблюдения или любое количество кластеров можно выбрать, разрезав дерево на нужном уровне. Агломеративный иерархический алгоритм является наиболее распространенным примером иерархической кластеризации.

Нечеткая кластеризация

Объект данных может быть членом более чем одной группы или кластера при использовании нечеткой кластеризации. Каждый набор данных имеет набор коэффициентов членства, которые основаны на том, сколько элементов набор данных входит в кластер. Алгоритм нечетких C-средних, также называемый алгоритмом нечетких k-средних, является примером кластеризации такого типа.

Алгоритмы кластеризации

Алгоритм K-средних. Алгоритм k-средних — один из самых популярных алгоритмов кластеризации.
Алгоритм среднего сдвига. Алгоритм среднего сдвига пытается найти плотные области в равномерной плотности точек данных.
Алгоритм DBSCAN: он означает пространственную кластеризацию приложений с шумом на основе плотности.
Кластеризация максимизации ожиданий с использованием GMM: этот алгоритм можно использовать в качестве альтернативы алгоритму k-средних.
Агломеративный иерархический алгоритм. Агломеративный иерархический алгоритм выполняет восходящую иерархическую кластеризацию.
Распространение сходства. Он отличается от других алгоритмов кластеризации тем, что не требует указания количества кластеров.

Применение кластеризации в различных областях:

Маркетинг: его можно использовать для определения и обнаружения потребительских сегментов.
Биология. Его можно использовать для классификации различных видов растений и животных.
Библиотеки: используется для группировки разных книг по разным темам.
Городское планирование.Используя их географическое положение и другие критерии, он используется для классификации домов и анализа их стоимости.
Изучение землетрясений:изучая районы, пострадавшие от землетрясения, мы можем определить опасные зоны.
Обработка изображений. Кластеризация — это метод группировки похожих фотографий, классификации изображений на основе содержания и выявления шаблонов в данных изображения.
Генетика. Кластеризация — это метод группировки генов с похожими паттернами экспрессии и выявления генных сетей, которые взаимодействуют в биологических процессах.
Финансы. С помощью кластеризации мы можем группировать разделы рынка на основе поведения клиентов, затем выявлять различные закономерности в данных фондового рынка и анализировать риски в инвестиционных портфелях.
Служба поддержки клиентов. Запросы и жалобы клиентов классифицируются с помощью кластеризации, что также помогает выявлять распространенные проблемы и находить решения.
Производство. Кластеризация используется для группировки похожих продуктов, что помогает выявить общие проблемы и целевой рынок.

И многое другое

Заключение

Кластеризация — это подход к обучению без учителя, при котором группировка выполняется на основе сходства. Здесь машина учится на существующих данных и не нуждается в каком-либо обучении, в то время как классификация представляет собой подход к обучению с учителем, когда машине предоставляется конкретная метка для классификации новых наблюдений. Здесь машина нуждается в надлежащем тестировании и обучении для проверки этикетки.

Спасибо.

Подробнее: https://www.javatpoint.com/clustering-in-machine-learning

https://www.geeksforgeeks.org/clustering-in-machine-learning