Неконтролируемые алгоритмы | Серия данных | Эпизод 8.3
В предыдущем эпизоде мы рассмотрели популярную технику кластеризации под названием кластеризация K-средних. В этом выпуске мы рассмотрим еще один широко используемый метод кластеризации, который называется Иерархическая кластеризация.
Пожалуйста, просмотрите это видео, если какой-либо раздел этой статьи неясен:
Что такое иерархическая кластеризация?
Иерархическая кластеризация — это алгоритм машинного обучения без учителя, задачей которого является поиск кластеров в данных. Затем мы можем использовать эти кластеры, идентифицированные алгоритмом, чтобы делать прогнозы, к какой группе или кластеру принадлежит новое наблюдение.
Обзор
Подобно кластеризации K-средних, иерархическая кластеризация берет данные и находит кластеры:
Однако отличается алгоритм идентификации кластеров. В конце мы обсудим относительные преимущества и недостатки иерархической кластеризации по сравнению с кластеризацией K-средних.
Алгоритм
Шаг 1:
Рассматривайте каждую точку данных как кластер. Вычислите евклидово расстояние, на котором каждый кластер находится друг от друга:
Шаг 2:
Используя матрицу расстояний, определите кластеры, ближайшие друг к другу:
Шаг 3:
Свяжите эти кластеры вместе, чтобы сформировать новый кластер:
Шаг 4:
Вычислите расстояние, на котором средняя точка каждого кластера находится друг от друга:
Шаг 5:
Повторяйте шаги со 2 по 4, пока не будет сформирован один кластер.
Один кластер был сформирован, поэтому мы останавливаемся.
Шаг 6:
Разрежьте нашу дендрограмму в выбранной точке, чтобы получить кластеры, идентифицированные нашим алгоритмом в этой точке. Точка, которую мы выбираем для разреза, обычно делается визуально.
и мы закончили!
Методы связи
Обратите внимание, что на шаге 4 мы рассчитали расстояние, на котором каждый кластер находится друг от друга (известное как несходство) на основе центроида или средняя точка каждого кластера. Затем мы связываем кластеры с наименьшим из таких различий. Это известно как Centroid Linkage:
Однако есть и другие способы связать кластеры:
Метод Уорда использует ту же целевую функцию, что и кластеризация K-средних, описанная в предыдущем эпизоде.
Соображения по поводу иерархической кластеризации
Преимущества
- Не нужно вручную выбирать количество кластеров K.
- Легко реализовать.
- Дендрограмма может дать полезную информацию.
- Нет необходимости во многих случайных инициализациях центроидов, как при кластеризации K-средних.
Недостатки
- При больших наборах данных трудно определить количество подходящих кластеров из дендрограммы.
- Вычислительно затратный, медленнее, чем кластеризация K-mean.
- Чувствителен к выбросам.
В следующем эпизоде мы реализуем иерархическую кластеризацию для реального набора данных с помощью Python.
Резюме
- Иерархическая кластеризация – это неконтролируемый алгоритм машинного обучения, который используется для кластеризации данных в группы.
- Алгоритм работает путем связывания кластеров с использованием определенного метода связывания (среднего, полного, одиночного, метода Уорда и т. д.) для формирования новых кластеров.
- Вышеупомянутый процесс создает дендрограмму, на которой мы можем видеть связи каждого кластера.
- Мы можем разрезать нашу дендрограмму в определенной точке, чтобы получить подходящие кластеры из наших данных.
Предыдущий эпизод _______ Следующий эпизод
Дополнительные материалы на plainenglish.io