Кластеризация — это неконтролируемый алгоритм машинного обучения. Неконтролируемое машинное обучение — это подобласть машинного обучения, которая поможет определить скрытые закономерности в наших данных. Кластеризация — это создание кластеров, содержащих данные аналогичного типа. Подобный тип данных означает данные, которые следуют схожим шаблонам. Наша главная цель — определить все скрытые похожие типы паттернов.

Существуют различные типы методов кластеризации, такие как

  • Жесткая кластеризация
  • Мягкая кластеризация
  • Иерархическая кластеризация
  • Разрозненная кластеризация

В этой статье мы сосредоточимся на мягкой кластеризации и на том, как она поможет нам определить пороговые значения с использованием этих шаблонов. далее Возьмем пример интереса человека. У человека может быть несколько интересов/хобби, таких как езда на велосипеде, чтение книг, прослушивание музыки и т. д. Мы пытаемся создать кластеры на основе интересов людей. Итак, допустим, у нас есть 10 кластеров, в которые попадает человек. В этом случае человек может попасть в один из 10 кластеров, в которых человек так заинтересован. Но у человека может быть несколько интересов, что является проблемой при создании жесткой кластеризации. Для решения этой проблемы люди придумывают кластеризацию, в которой они могут предоставить вероятность или значение членства человеку для всех кластеров. Это решение известно как Soft Clustering. При мягкой кластеризации у нас есть разные типы
алгоритмов, такие как

  • Нечеткие C-средние
  • DBSCAN (пространственная кластеризация приложений с шумом на основе плотности)
  • HDBSCAN (иерархический DBSCAN)
  • WBSC (мягкая кластеризация на основе слов)

Эти алгоритмы помогают оптимизировать центроиды кластера. С помощью этих алгоритмов кластеризации мы можем создавать мягкие кластеры.

Пример данных

В нашей таблице данных у нас есть идентификаторы людей, интересы, возраст. Наша задача — найти возраст или возрастную группу, в которую попадает человек. Определим возраст 1-го лица. У нас есть

После создания кластеризации мы должны выполнить однокластерный анализ, чтобы вывести скрытые закономерности из этих кластеров. После того, как у нас есть скрытые шаблоны, мы можем определить пороговые значения признаков и использовать эти пороговые значения для нашего дальнейшего процесса создания динамических пороговых значений.
В этом упражнении мы извлекаем пороговое значение для возрастной группы, в которой находится человек.

Назначение динамического порога

После определения пороговых значений для каждого кластера. У нас есть Итак, например, у нас есть 10 кластеров по интересам человека.

Как показано в таблице выше, после оптимизации нашей целевой функции для мягких кластеров. Прогнозируем вероятность падения для каждого человека. Он определит, что человек принадлежит к определенному кластеру, но также имеет общие шаблоны с другими кластерами. Итак, теперь у нас есть вероятность падения человека и пороговые модели для каждого кластера.

Теперь нам нужно определить динамические пороги для человека. Каждый набор табличных данных имеет либо категориальные, либо числовые точки данных.

Другие типы точек данных

Наши данные имеют пороговые значения, которые представляют собой числовые характеристики, такие как возраст. Или категориальные функции, такие как возрастная группа. Мы используем наивный подход голосования за категориальные и усреднения за числовые признаки.

Давайте определим возраст 1-го лица.

В числовых признаках мы берем среднее значение. Но когда дело доходит до
категориальной функции, она проверяет, какой класс получает наибольшее количество голосов. Мы рассмотрим этот класс.

Заключение

В этой статье мы узнали о прогнозировании значений категориальных и числовых признаков. Мы узнали о мягкой кластеризации и о том, как она поможет нам определить функцию для отдельных точек данных.