Дорогие друзья!

Был ли у вас когда-либо набор данных с таким количеством точек, что вам было трудно разобраться во всем? Кластеризация данных может быть решением, которое вы ищете. Группируя похожие точки данных вместе, алгоритмы кластеризации помогают раскрыть основную структуру ваших данных и выявить закономерности и взаимосвязи, которые раньше могли быть скрыты. 👋Мелисса Саммерс и 👋я впервые расскажут, что такое кластеризация данных, четыре основных типа и как их можно использовать для анализа и понимания сложные наборы данных.

Что такое кластеризация?

Кластеризация — это метод анализа и понимания наборов данных без предопределенных меток или категорий. Это может усложнить проведение исследовательского анализа данных (EDA) и сделать выводы о взаимосвязях внутри данных. Кластеризация может быть полезным инструментом в таких ситуациях, потому что она позволяет нам группировать схожие точки данных вместе, выявлять закономерности и структурировать наши данные для следующих шагов в нашем аналитическом процессе. Алгоритмы кластеризации — это тип неконтролируемой техники машинного обучения, которая может автоматически выявлять шаблоны и группировать схожие точки данных вместе без вмешательства человека. Существует множество различных типов алгоритмов кластеризации, но следующие четыре являются одними из наиболее часто используемых.

Иерархическая кластеризация

Иерархическая кластеризация — это тип алгоритма кластеризации, который используется для группировки точек данных в кластеры на основе их сходства. Он работает путем построения иерархии кластеров, где каждый кластер последовательно делится на более мелкие кластеры, пока каждая точка данных не будет принадлежать своему собственному кластеру. Он очень полезен для идентификации кластеров любой формы и визуализации взаимосвязей между точками данных, но может быть не таким эффективным, как другие методы кластеризации для больших наборов данных. Основным результатом является дендрограмма, отображающая все возможные кластеры, найденные в наборе данных. Результат иерархической кластеризации может быть как выгодным, так и невыгодным, в зависимости от контекста. Алгоритм генерирует большое количество кластеров, для вычисления которых может потребоваться значительное время, а для некоторых анализов они могут быть чрезмерно подробными. С другой стороны, возможность создания большого количества кластеров может быть полезной в определенных ситуациях, когда требуется высокий уровень детализации.

Кластеризация на основе Centroid

Кластеризация на основе центроида организует данные в неиерархические кластеры путем итеративного измерения расстояния между каждым кластером и его ближайшей точкой данных. Наиболее популярным инструментом для проведения кластеризации на основе центроидов является алгоритм K-средних, поскольку он классифицирует каждую точку данных ровно в один кластер. Однако алгоритм требует, чтобы пользователь ввел «K» кластеров для сегментации данных. Например, если вы указываете, что K = 3, компьютер затем находит 3 одинаково удаленных средних точки, называемых центроидами. Затем каждая точка данных группируется в соответствии с ее расстоянием до центроида. Чтобы найти оптимальное количество кластеров, компьютер может пересчитать каждый центроид на основе среднего расстояния до всех объектов в кластере. Это повторение продолжается до тех пор, пока все точки данных не перестанут смещаться и не зафиксируются в своих соответствующих кластерах. Однако из-за того, что модель сфокусирована на центроиде, границы вокруг кластера могут иметь проблемы с выбросами. Кроме того, если точка данных расположена близко к границе и потенциально может рассматриваться как часть двух кластеров, эту информацию невозможно увидеть.

Кластеризация с максимальным ожиданием (EM)

Этот тип кластеризации расширяет модель на основе центроида, которую мы только что обсуждали, но более точно обрабатывает выбросы, позволяя точкам данных существовать в двух кластерах одновременно. Основным инструментом, используемым для этого алгоритма, являются модели гауссовских смесей (GMM), которые выводят распределение вероятностей, отображающее все возможности для каждого кластера. Этот вывод позволяет пользователю визуально увидеть, как каждый кластер обычно распределяется, а также как каждый кластер перекрывается. Это делает его лучшим инструментом для начала углубленного анализа, поскольку он поднимает вопросы о взаимосвязанности данных. Кластеризация EM особенно хорошо подходит для наборов данных со скрытыми или отсутствующими данными, поскольку она может обрабатывать эти случаи, оценивая отсутствующие значения в процессе кластеризации. Однако могут возникнуть проблемы, если набор данных не соответствует гауссовскому (нормальному) распределению, и пользователь также должен заранее указать количество кластеров.

Кластеризация на основе плотности

Кластеризация на основе плотности является предпочтительной моделью кластеризации, используемой исследователями данных, поскольку она автоматически рассчитывает количество необходимых кластеров и является очень точной. Суть этой модели состоит в том, чтобы разделить набор данных на кластеры на основе параметра ε, известного как «окрестностное» расстояние. Проще говоря, если точка данных находится в пределах кругового радиуса введенного параметра ε, она включается в кластер. В противном случае, если точка данных находится слишком далеко за пределами радиуса, она классифицируется как шум. Основным инструментом, используемым для этой модели, является DBSCAN (пространственная кластеризация приложений на основе плотности с шумом). Хотя эта модель выбрана фаворитом, если размещение данных слишком сжато, определение параметра ε становится сложным и может привести к плохим результатам.

👣Пример

Чтобы проиллюстрировать кластеризацию, подумайте о том, как компании используют персонализированную рекламу для улучшения своих маркетинговых стратегий. Продавец одежды может использовать алгоритмы кластеризации для группировки клиентов по разным сегментам. Сначала ритейлер собирал данные о характеристиках своих клиентов, таких как их возраст, пол, местонахождение, доход и история покупок. Они также могут собирать данные о предпочтениях и интересах клиентов, например, об их любимых брендах или типах одежды.

Затем ритейлер будет использовать алгоритм кластеризации для анализа этих данных и выявления групп покупателей со схожими характеристиками. Например, алгоритм может идентифицировать следующие три группы клиентов:

  • Кластер 1: молодые, следящие за модой женщины, проживающие в городских районах и имеющие высокие доходы. Эти клиенты часто покупают высококачественную одежду и аксессуары от дизайнерских брендов и интересуются модными модными стилями.
  • Группа 2: пожилые, бережливые мужчины, проживающие в пригородах и имеющие умеренный доход. Эти клиенты в основном покупают практичную и недорогую одежду и заинтересованы в практичном и удобном стиле.
  • Кластер 3: молодые, экономные женщины, проживающие в сельской местности и имеющие низкие доходы. Эти клиенты в основном покупают недорогую одежду и заинтересованы в практичном и удобном стиле.

Затем ритейлер может использовать эту информацию для разработки целевых маркетинговых кампаний и персонализированных рекомендаций для каждого кластера. Например, маркетинговая команда может рассылать рекламные электронные письма или рекламные объявления о модной, высококачественной одежде и аксессуарах молодым, следящим за модой женщинам из кластера 1, а электронные письма или рекламные объявления о практичной и доступной одежде пожилым, заботящимся о бюджете. мужчин в кластере 2 и более молодых экономных женщин в кластере 3.

Этот подход может быть более эффективным, чем универсальная маркетинговая стратегия, поскольку он позволяет розничному продавцу адаптировать свои усилия к конкретным потребностям и предпочтениям каждого кластера клиентов.

Алгоритмы кластеризации — это мощный инструмент для анализа и понимания сложных наборов данных, но он не предназначен для единственного ответа на ваши вопросы. Скорее, он действует как катализатор для более проницательных вопросов о ваших данных и является отличным первым шагом при начале EDA на немаркированных наборах данных. Выбор правильного алгоритма для кластеризации ваших данных — это полдела, и это зависит от контекста вашего исследования и типа данных, которые вам предоставляются. В конечном итоге вы будете использовать множество различных алгоритмов кластеризации в своем путешествии по EDA, чтобы использовать каждое из их преимуществ, поскольку все они могут привести вас к новым идеям.