В этой статье мы сначала увидим, что такое обучение без учителя, а затем познакомимся с концепцией кластеризации и алгоритмом K-средних, который является базовой концепцией кластеризации, и, наконец, мы приведем пример, в котором мы можем развернуть это концепция, так что эти вещи используются для решения проблем в реальном времени !!

Что такое обучение без учителя?

Алгоритму обучения не присваиваются метки, и он сам может найти структуру во входных данных. Неконтролируемое обучение может быть самоцелью (обнаружение скрытых закономерностей в данных) или средством достижения цели (изучение особенностей). В некоторых задачах распознавания образов обучающие данные состоят из набора входных векторов x без каких-либо соответствующих целевых значений. Целью таких задач неконтролируемого обучения может быть обнаружение групп похожих примеров в данных, что называется кластеризацией, или определение того, как данные распределяются в пространстве, известное как плотность оценка. Проще говоря, для пространства с n выборками от x1 до xn истинные метки класса не предоставляются для каждого образца, отсюда и название обучение без учителя.

Что такое кластеризация?

Кластеризацию можно считать наиболее важной проблемой обучения без учителя; поэтому, как и любая другая проблема такого рода, он связан с поиском структуры в коллекции немаркированных данных. Свободное определение кластеризации могло бы быть «процессом организации объектов в группы, члены которых в чем-то похожи». Таким образом, кластер представляет собой набор объектов, которые «похожи» между собой и «не похожи» на объекты, принадлежащие другим кластерам.

Алгоритм кластеризации K-средних:

K-means - это один из простейших алгоритмов обучения без учителя, который решает хорошо известную проблему кластеризации. В этом алгоритме есть две части. Рассмотрим приведенный ниже набор данных, где он нанесен на график. Теперь, если нам нужно сгруппировать эти данные, сначала алгоритм k-средних случайным образом инициализирует некоторые точки данных, называемые центроидами кластера. (центроиды кластера инициализируются случайным образом в соответствии с количеством кластеров в наборе данных). В нашем случае у нас есть 2 центроида кластера: красный и синий.

Теперь данные рядом с центроидами кластера сгруппированы, то есть расстояние между данными и точками кластера должно быть небольшим, если оно мало, то данные группируются в этот центроид кластера. Итак, этот шаг называется присвоение кластера. Это первая часть метода k-средних, следующая - зациклить шаг центроида, который является точкой центроида и их группой. берутся значения и находят их среднее значение. аналогично берется и другая кластерная точка и определяется их среднее значение. После этого точка кластера переместится на новое место (то есть значение изменится на свое среднее значение), этот шаг называется шагом перемещения центроида. После этого метода действия повторяются до тех пор, пока кластер не останется на прежнем месте. Вот как работает алгоритм k-средних !!

Итак, в этом алгоритме у нас есть два входа: один - это номер кластера K, другой - набор данных!

Теперь давайте посмотрим на алгоритм более подробно. Сначала берется этот набор данных, и в зависимости от кластера создаются различные центроиды кластера. Затем данные, которые являются ближайшими к центроидам кластера, группируются, а затем вычисляется среднее (среднее) этих точек, которые вычисленные значения присваиваются центроиду кластера (таким образом, положение центроида кластера изменится), этот процесс повторяется до тех пор, пока центроид достигает небольшого значения. (После одного этапа, если вы выполняете цикл, значение не меняется, значение центроида остается прежним.) Именно так работают алгоритмы k-средних и кластеризуют данные очень эффективно, чем любой другой метод кластеризации.

Код Python для реализации алгоритма K-средних

Итак, чтобы подвести итоги:

Кластеризация K-средних - один из самых простых и популярных алгоритмов машинного обучения без учителя. Из приведенного выше шага мы можем легко реализовать алгоритм кластеризации k-средних.

Ссылка: