Неконтролируемые алгоритмы | Серия данных | Эпизод 8.3

В предыдущем эпизоде мы рассмотрели популярную технику кластеризации под названием кластеризация K-средних. В этом выпуске мы рассмотрим еще один широко используемый метод кластеризации, который называется Иерархическая кластеризация.

Пожалуйста, просмотрите это видео, если какой-либо раздел этой статьи неясен:

Ссылка на видео

Что такое иерархическая кластеризация?

Иерархическая кластеризация — это алгоритм машинного обучения без учителя, задачей которого является поиск кластеров в данных. Затем мы можем использовать эти кластеры, идентифицированные алгоритмом, чтобы делать прогнозы, к какой группе или кластеру принадлежит новое наблюдение.

Обзор

Подобно кластеризации K-средних, иерархическая кластеризация берет данные и находит кластеры:

Однако отличается алгоритм идентификации кластеров. В конце мы обсудим относительные преимущества и недостатки иерархической кластеризации по сравнению с кластеризацией K-средних.

Алгоритм

Шаг 1:

Рассматривайте каждую точку данных как кластер. Вычислите евклидово расстояние, на котором каждый кластер находится друг от друга:

Шаг 2:

Используя матрицу расстояний, определите кластеры, ближайшие друг к другу:

Шаг 3:

Свяжите эти кластеры вместе, чтобы сформировать новый кластер:

Шаг 4:

Вычислите расстояние, на котором средняя точка каждого кластера находится друг от друга:

Шаг 5:

Повторяйте шаги со 2 по 4, пока не будет сформирован один кластер.

Один кластер был сформирован, поэтому мы останавливаемся.

Шаг 6:

Разрежьте нашу дендрограмму в выбранной точке, чтобы получить кластеры, идентифицированные нашим алгоритмом в этой точке. Точка, которую мы выбираем для разреза, обычно делается визуально.

и мы закончили!

Методы связи

Обратите внимание, что на шаге 4 мы рассчитали расстояние, на котором каждый кластер находится друг от друга (известное как несходство) на основе центроида или средняя точка каждого кластера. Затем мы связываем кластеры с наименьшим из таких различий. Это известно как Centroid Linkage:

Однако есть и другие способы связать кластеры:

Метод Уорда использует ту же целевую функцию, что и кластеризация K-средних, описанная в предыдущем эпизоде.

Соображения по поводу иерархической кластеризации

Преимущества

  • Не нужно вручную выбирать количество кластеров K.
  • Легко реализовать.
  • Дендрограмма может дать полезную информацию.
  • Нет необходимости во многих случайных инициализациях центроидов, как при кластеризации K-средних.

Недостатки

  • При больших наборах данных трудно определить количество подходящих кластеров из дендрограммы.
  • Вычислительно затратный, медленнее, чем кластеризация K-mean.
  • Чувствителен к выбросам.

В следующем эпизоде ​​мы реализуем иерархическую кластеризацию для реального набора данных с помощью Python.

Резюме

  • Иерархическая кластеризация – это неконтролируемый алгоритм машинного обучения, который используется для кластеризации данных в группы.
  • Алгоритм работает путем связывания кластеров с использованием определенного метода связывания (среднего, полного, одиночного, метода Уорда и т. д.) для формирования новых кластеров.
  • Вышеупомянутый процесс создает дендрограмму, на которой мы можем видеть связи каждого кластера.
  • Мы можем разрезать нашу дендрограмму в определенной точке, чтобы получить подходящие кластеры из наших данных.

Предыдущий эпизод _______ Следующий эпизод

Дополнительные материалы на plainenglish.io