Что такое кластеризация?

Кластеризация является одним из наиболее распространенных методов исследовательского анализа данных, используемых для получения интуитивного представления о структуре данных. Его можно определить как задачу идентификации подгрупп в данных таким образом, чтобы точки данных в одной и той же подгруппе (кластере) были очень похожи, а точки данных в разных кластерах сильно различались.
В отличие от контролируемого обучения, кластеризация считается неконтролируемой. метод обучения, поскольку у нас нет достоверной информации для сравнения результатов алгоритма кластеризации с истинными метками для оценки его производительности. Мы только хотим попытаться исследовать структуру данных, сгруппировав точки данных в отдельные подгруппы.

Что такое кластеризация K-средних?

Кластеризация K-средних — очень известный и мощный алгоритм машинного обучения без присмотра. Он используется для решения многих сложных задач машинного обучения без учителя.

K означает один из самых популярных алгоритмов машинного обучения без присмотра, используемых для решения задач классификации. K Means разделяет немаркированные данные на различные группы, называемые кластерами, на основе схожих характеристик и общих закономерностей.

Алгоритм К-средних

Алгоритм K-средних - это итерационный алгоритм, который делит группу из n наборов данных на k подгрупп / кластеров на основе сходства и их среднего расстояния от центра тяжести этой конкретной подгруппы / сформированной. Или кластеризация K-средних - это неконтролируемый алгоритм обучения. Для этой кластеризации нет размеченных данных, в отличие от обучения с учителем. K-Means выполняет разделение объектов на кластеры, которые имеют сходство и не похожи на объекты, принадлежащие другому кластеру.

Термин «К» — это число. Вам нужно сообщить системе, сколько кластеров вам нужно создать. Например, K = 2 относится к двум кластерам. Существует способ выяснить, какое значение K является лучшим или оптимальным для заданных данных.

Для лучшего понимания k-средних возьмем пример из крикета. Представьте, что вы получили данные о множестве игроков в крикет со всего мира, которые дают информацию о набранных игроком ранах и калитках, взятых им в последних десяти матчах. На основе этой информации нам нужно сгруппировать данные в два кластера, а именно игроков с битой и боулеров.

Каковы основные шаги для кластеризации K-средних?

Шаг 1: Выберите количество кластеров k.

Шаг 2: Выберите k случайных точек из данных в качестве центроидов.

Шаг 3: Назначьте все точки ближайшему центроиду кластера.

Шаг 4: Повторно вычислите центроиды вновь образованных кластеров.

Шаг 5: Повторите шаги 3 и 4.

Как выбрать значение К?

Одной из самых сложных задач в этом алгоритме кластеризации является выбор правильных значений k. Каким должно быть правильное значение k? Как выбрать значение k? Найдем ответ на эти вопросы. Если вы выбираете значения k случайным образом, это может быть правильным или неправильным. Если вы выберете неправильное значение, это напрямую повлияет на производительность вашей модели. Таким образом, есть два метода, с помощью которых вы можете выбрать правильное значение k.

  1. Локтевой метод.
  2. Силуэтный метод.

Метод локтя

Elbow — один из самых известных методов, с помощью которого вы можете выбрать правильное значение k и повысить производительность вашей модели. Мы также выполняем настройку гиперпараметров, чтобы выбрать наилучшее значение k. Давайте посмотрим, как работает этот метод локтя.

Это эмпирический метод определения наилучшего значения k. он выбирает диапазон значений и выбирает лучшее из них. Он вычисляет сумму квадратов точек и вычисляет среднее расстояние.

Когда значение k равно 1, сумма квадрата внутри кластера будет высокой. По мере увеличения значения k сумма квадратов внутри кластера будет уменьшаться.

Метод силуэта

Метод силуэта несколько отличается. Метод локтя также выбирает диапазон значений k и рисует график силуэта. Он вычисляет коэффициент силуэта каждой точки. Он вычисляет среднее расстояние точек в своем кластере a (i) и среднее расстояние точек до своего следующего ближайшего кластера, называемого b (i).

Примечание. Значение a (i) должно быть меньше значения b (i), то есть ai‹‹bi.

Теперь у нас есть значения a (i) и b (i). мы рассчитаем коэффициент силуэта, используя приведенную ниже формулу.

Обратите внимание, что коэффициент силуэта, равный -1, является наихудшим сценарием.

Пример использования K-средних кластеризации в домене безопасности

Алгоритм кластеризации K-средних используется для поиска групп, которые не были явно помечены в данных. Это можно использовать для подтверждения бизнес-предположений о существующих типах групп или для идентификации неизвестных групп в сложных наборах данных.

Кластер имеет особое значение, которое относится к особой группе преступлений, т. е. множеству преступлений в определенных регионах. Эти кластеры могут быть представлены с помощью геоэпизода преступления, описанного на карте полицейской юрисдикции.

  1. Интеллектуальный анализ данных о преступлениях для информационной системы полиции Индии

Это все о системе анализа преступности в Индии. Это дает возможность улучшить существующую в настоящее время систему в индийской полицейской системе, которая называется Информационная система по уголовным преступлениям (CCIS). Он предлагает разделить базу данных по соответствующим состояниям, используя классификацию, чтобы упростить анализ данных. В нашем проекте мы разделяем данные на различные виды преступлений, что позволяет пользователю легко получать информацию об этих преступлениях (например, процент конкретного преступления в определенном году, очаг этого конкретного преступления)

2. Оптимальная модель KD для обнаружения шаблонов преступлений на основе анализа семантических связей — инструмент интеллектуального анализа данных.

Система находит критический путь серийных убийц, которые снова и снова наносят удары, и определяет связи между местами их преступной деятельности, имевшими место в прошлом, записями о поездках, предысторией и т. д. Эти результаты повышают вероятность обнаружения этих рецидивистов. Формирование для интеграции информации из различных криминальных инцидентов, а также из нескольких источников, а также для выявления закономерностей структуры, организации, работы и информации в криминальных базах данных. Если конкретный преступник использует шаблон пути для совершения последовательных преступлений, то по наблюдаемому шаблону можно предсказать место следующего преступления этого серийного убийцы. например: в DHOOM 2 последнее место преступления преступника РИТИКА РОШАНА было предсказано по образцу, который он сформировал из своих предыдущих мест преступления.

3. Развитие алгоритмов интеллектуального анализа данных в соответствии с преобладающей тенденцией преступности

Данные о преступности разделены по дням недели для наблюдения за пространственно-временным распределением преступности. К сгруппированным результатам был применен алгоритм классификации для прогнозирования будущей модели преступности. Это позволяет нам построить модель для прогнозирования следующих рекордов, используя данные за предыдущий год.

РЕЗУЛЬТАТЫ АНАЛИЗА ФОРМЫ ПРЕСТУПЛЕНИЙ
Различные кластеры или модели преступности выделены цветом. Для каждой группы в легенде указано общее количество преступлений, включенных в группу, а также существенные признаки, характеризующие группу.