Смешанные переменные (категориальные и числовые) функция расстояния

Я хочу создать нечеткий кластер для набора заданий. Атрибуты работы:

  1. Категория: должность, диплом, навыки
  2. Число: зарплата, многолетний опыт

Мой вопрос: как рассчитать расстояние между разными должностями?
например, job1(программист,бакалавр информатики,(java,.net,ответственность),1500, 3)
и < strong>job2(тестер,бакалавр информатики,(тестирование чёрного и белого ящиков),1200,1)

PS: я новичок в кластеризации интеллектуального анализа данных, я очень ценю вашу помощь.


person Mariya    schedule 07.08.2011    source источник


Ответы (2)


Вы можете взять это за отправную точку: http://www.econ.upf.edu/~michael/stanford/maeb4.pdf. Расстояние между категориальными данными хорошо объяснено в конце.

person iinception    schedule 07.08.2011

Вот хорошее пошаговое руководство по нескольким различным методам кластеризации и их использованию в R: http://biocluster.ucr.edu/~tgirke/HTML_Presentations/Manuals/Clustering/clustering.pdf

Как правило, кластеризация дискретных данных связана либо с использованием подсчетов (например, перекрытий в векторах), либо с некоторой статистикой, полученной из подсчетов. Как бы мне ни хотелось коснуться статистической стороны, полагаю, вас интересует алгоритм, так что на этом я остановлюсь.

person Iterator    schedule 08.08.2011