Введение в кластеризацию в R

Кластеризация – это метод сегментации данных, который делит огромные наборы данных на разные группы на основе схожести данных. Это статистическая операция группировки объектов. Полученные группы представляют собой кластеры. Кластеры обладают следующими свойствами:

  • Мы находим их в процессе эксплуатации и их количество тоже не всегда фиксируется заранее.
  • Они представляют собой совокупность объектов, имеющих схожие характеристики.

Кластеризация — один из самых распространенных описательных методов анализа данных и интеллектуального анализа данных. Мы используем его, когда объем данных велик, чтобы найти однородные подмножества, которые мы можем обрабатывать и анализировать разными способами.

Например, компания-производитель пищевых продуктов может классифицировать своих клиентов на основе приобретаемых товаров и их стоимости.

Приложения кластеризации

Ниже приведены основные приложения кластеризации:

  • Маркетинг. В этой области кластеризация полезна для поиска профилей клиентов, которые составляют клиентскую базу. После обнаружения кластеров бизнес может разработать конкретную стратегию для каждой базы кластера. Мы можем использовать кластеры, чтобы отслеживать клиентов в течение нескольких месяцев и определять количество клиентов, перешедших из одного кластера в другой.
  • Розничная торговля. В сфере розничной торговли мы используем кластеризацию, чтобы разделить все магазины определенной компании на группы заведений в зависимости от типа покупателя, товарооборота и т. д.
  • Медицина. В медицине мы используем кластеризацию для обнаружения группы пациентов, подходящих для определенных протоколов лечения. Каждая группа включает всех пациентов, которые реагируют одинаково. Формирование этих групп происходит на основе возраста, типа заболевания и т. д. Мы также можем использовать кластеризацию в классификации по последовательности белков, компьютерной томографии и т. д.
  • Социология — здесь мы используем кластеризацию при выполнении операций интеллектуального анализа данных. Мы делим население на группы лиц, однородных с точки зрения социальной демографии, образа жизни, ожиданий и т. д. Затем мы можем использовать категоризацию для таких целей, как опросы, выявление преступников и т. д.

В разных областях кластеризация имеет разные названия, например:

  • Маркетинг. В маркетинге для кластеризации используется термин «сегментация» или «типологический анализ».
  • Медицина — в области медицины термин нозология для группировки.
  • Биология. В области биологии числовая таксономия — это термин для кластеризации.

Подробнее››