Что происходит под капотом — k- означает кластеризацию — и как применять алгоритм.

Этот блог является частью моего понимания неконтролируемого обучения.

Я кратко расскажу о том, что такое обучение без учителя, а затем дам вам шесть простых шагов, чтобы понять кластеризацию методом k-средних.

В неконтролируемом обучении участие человека минимально (если мы рассматриваем людей как машины), а данные не помечены.

Неконтролируемое обучение в основном используется в электронной коммерции для перекрестных продаж продуктов.

Итак, если бы у вас был набор данных с результатом, показывающим группу разных людей (разнообразие определяется возрастом, расой, образованием, доходом, географическим районом и т. д.), и вы знали бы, сколько денег они тратят в месяц на продукты, вы бы группировать указанных людей в зависимости от того, сколько они тратят в месяц независимо от других факторов.

Затем вы можете продать им больше товаров, чем купили другие люди из того же кластера расходов.

При кластеризации данные группируются на основе их сходства, а не на основе категории или тегов.

Например, в компании вы можете группировать людей на основе их эффективности (высокая, средняя и низкая), не отмечая их (независимо) от их отдела, пола или возраста.

Шаг 1. Прежде чем применять алгоритм k-средних к каким-либо данным, проверьте, действительно ли в наборе данных существуют кластеры. Примените статистику Хопкинса. Библиотека R -> factorextra и функция -> get_clust_tendency(). Если значение близко к 0, в данных есть кластеры. А если результат близок к 1, значит кластеров НЕТ.

Шаг 2. Разделите данные на кластеры. Выберите k с помощью nbclust()

Шаг 3. Выберите k-точку в середине k-кластеров.

Шаг 4. Вычислите евклидово расстояние и продолжайте перемещать новые точки в k-кластерах по направлению к центру k-точки.

Шаг 5: k-точка продолжает двигаться к центру (мы не собираемся менять точку, если нет кластера, который имеет лучшее расстояние/среднее значение, чем ранее рассчитанное) кластера- на основе нового среднего значения точек в этом кластере.

Шаг 6: для оценки — выполните индекс силуэта для оценки кластеров — значение силуэта варьируется от -1 до 1 (близко к 1 — хорошо.) —> функция силуэт() из библиотеки factorextra.

Я взял ссылку из «Машинного обучения из первых принципов» Коннора Бреретона.

Для практического применения и того, как выполнить кластеризацию k-средних для тематического исследования взаимодействия с клиентами — нажмите здесь