Его концепции и значение в машинном обучении

С каждым днем ​​количество людей, занимающихся Data Science, увеличивается. Все можно свести к основному, а именно: знание основ в любой академической / исследовательской среде. Раньше я делился своими знаниями по таким темам, как Типы наборов данных, Предварительная обработка данных, Предварительная обработка данных в Python, Линейная регрессия, Деревья решений и Наивный байесовский классификатор.

В этом посте я рассмотрю концепции кластеризации. Кластеризация - это разновидность обучения без учителя. Он играет жизненно важную роль в науке о данных. Наивно говоря, цель кластеризации - выявить закономерности в неструктурированных данных. Это относится ко многим доменам. Чтобы перечислить несколько примеров:

  1. Биология
  2. Поиск информации
  3. Психология и медицина
  4. Бизнес
  5. Обобщение
  6. Сжатие
  7. Поиск ближайших соседей

Сообщение подразделяется на:

  1. Введение - что такое кластеризация?
  2. Типы кластеризации
  3. Типы кластеров
  4. Введение в несколько фундаментальных методов кластеризации

Введение - что такое кластеризация?

Кластер - это группа объектов, в которой каждый объект более похож (или ближе) на любой другой объект в кластере, чем на любой объект вне кластера. Чем больше сходство внутри группы и чем значительнее разница между группами, тем лучше или отчетливее кластеризация.

Давайте разберемся с концепцией того, что составляет кластер; рассмотрите рисунок ниже.

Различные маркеры на изображении символизируют принадлежность к кластеру. На рисунке мы видим, что мы можем создать столько кластеров, сколько захотим, из одного и того же набора точек в зависимости от требований. Этот рисунок говорит нам, что определение кластера неточно, а лучшее объяснение зависит от проблемы.

Кластеризацию также можно рассматривать как форму классификации, поскольку она создает маркировку объектов с помощью меток класса (кластера), но эти метки производятся только на основе данных. Напротив, классификация (контролируемое обучение) маркирует немаркированные точки данных с использованием модели, разработанной на основе объектов с известными метками классов.

Типы кластеризации

В этом разделе будут рассмотрены различные варианты кластеризации:
→ Иерархическая или Разделенная
→ Эксклюзивная или Перекрывающаяся или Нечеткая
→ Полная или Частичная

Иерархический против разделения

Это наиболее часто обсуждаемое различие, является ли набор кластеров вложенным (иерархическим) или не вложенным (разделенным).

Разделенная кластеризация делит объекты данных на неперекрывающиеся подмножества (кластеры), так что каждый объект находится ровно в одном подмножестве. Каждая коллекция на подрисунках b-d на приведенном выше рисунке представляет собой секционированную кластеризацию.

Если мы разрешаем кластерам иметь подкластеры, мы получаем иерархическую кластеризацию, которая представляет собой не что иное, как набор вложенных кластеров, организованных в виде дерева. Каждый узел (кластер) в дереве (кроме n листовых узлов) является объединением своих дочерних узлов (подкластеров), а корень дерева составляет кластер, содержащий все объекты. Наконец, иерархическую кластеризацию можно рассматривать как последовательность разделенных кластеров. Разделенная кластеризация может быть получена путем взятия любого члена этой последовательности, то есть разрезания дерева на определенном уровне.

Эксклюзивное или перекрывающееся против нечеткого

Кластеризации на рис. 1 являются исключительными, поскольку они назначают каждый объект одному кластеру. Возможны ситуации, когда точка может принадлежать более чем одному кластеру. В таком случае появляется неисключительная кластеризация.

Перекрывающаяся или неисключительная кластеризация означает, что объект может одновременно принадлежать более чем одной группе. Например, человек в университете может быть зачисленным студентом и сотрудником университета. Эта кластеризация также используется, когда объект данных находится между двумя группами и вполне может быть отнесен к любой из двух групп.

При нечеткой кластеризации каждый объект принадлежит каждому кластеру, но с весом членства от 0 (не принадлежит) до 1 (принадлежит полностью). Кластеры рассматриваются как нечеткие множества.

Полная или частичная

При полной кластеризации каждый объект назначается кластеру, а при частичной кластеризации - нет. Мотивация для частичной кластеризации заключается в том, что некоторые точки данных могут не принадлежать четко определенным группам. Эти точки данных могут быть выбросами, шумом и т. Д.

Типы кластеров

Кластеризация направлена ​​на поиск функциональных групп объектов (кластеров), в которых цели проблемы определяют полезность. Следовательно, есть несколько понятий кластера, которые полезны на практике. Чтобы перечислить несколько типов кластеров:

  1. Хорошо разделены
  2. На основе прототипов
  3. На основе графиков
  4. На основе плотности
  5. Общая собственность (концептуальные кластеры)

Различия для всех типов кластеров поясняются на рисунке ниже.

Введение в несколько фундаментальных методов кластеризации

1. К-средства

Это основанная на прототипе методика секционированной кластеризации, которая пытается найти заданное пользователем количество кластеров (K), представленных их центроидами.

2. Агломеративная иерархическая кластеризация.

Это семейство методов, которые обрабатывают ваши данные и возвращают дерево кластеров. Вы используете алгоритмы этого семейства, потому что они более надежны, и вы можете легко переключать один на другой, чтобы лучше соответствовать свойствам ваших данных.

Этот подход к кластеризации относится к набору тесно связанных методов кластеризации, которые создают иерархическую кластеризацию, начиная с каждой точки как одноэлементного кластера, а затем многократно объединяя два ближайших кластера, пока не останется один всеобъемлющий кластер.

3. DBSCAN

DBSCAN означает пространственную кластеризацию приложений с шумом на основе плотности, которая создает секционную кластеризацию, в которой алгоритм автоматически определяет количество кластеров. Шумом считаются точки в регионах с низкой плотностью, классифицируемые как шум и не учитываемые; таким образом, DBSCAN не производит полную кластеризацию.

Этот пост едва ли касается вершины айсберга кластеризации. После того, как к-средним придут нечеткие с-средние и алгоритм максимизации ожидания (EM), я расскажу об этом в одном из следующих постов, а также об базовой реализации кластеризации в Python3. Надеюсь, вам понравилось читать этот пост и вы узнали некоторые основы кластеризации для начала. Спасибо за чтение.

Если вам нравится читать подобные истории и вы хотите поддержать меня как писателя, подумайте о подписке, чтобы стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к историям на Medium. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию без каких-либо дополнительных затрат для вас.



Хотите быть последовательными в жизни, получите это руководство бесплатно.



Получите доступ к экспертному обзору - Подпишитесь на DDI Intel