Наука о данных

Ищете связи в ваших данных? На помощь приходят методы корреляции!

Вкратце о методах корреляции

Модели машинного обучения так же хороши или плохи, как и данные, которые вы используете. Вот почему специалисты по обработке данных обычно тратят часы на предварительную обработку и очистку данных. Крайне важно выбрать только те функции, которые могут больше всего повлиять на производительность итоговой модели. Здесь на сцену выходит разработка функций.

Какая взаимосвязь?

Проще говоря, корреляция - это мера того, насколько сильно одна функция связана с другой. Например, рост и вес могут быть положительно коррелированы. А рост и зарплата совершенно не связаны.

Понимание корреляции между функциями помогает в проектировании функций путем вменения недостающих значений с использованием другой коррелированной функции или устранения избыточных функций, которые сильно коррелированы.

В этой статье мы обсудим различные методы корреляции и их полезность.

Ниже приведены наиболее широко используемые методы корреляции.

  1. Ковариация
  2. Коэффициент корреляции Пирсона
  3. Коэффициент ранговой корреляции Спирмена

Давайте погрузимся!

1. КОВАРИАНТНОСТЬ:

Ковариация - это мера совместной вероятности двух характеристик. Для двух функций, скажем, X и Y, пусть E (X), E (Y) будут ожидаемыми значениями X, Y соответственно. , а «n» - общее количество точек данных. Ковариация X, Y определяется выражением

Знак ковариации указывает на тенденцию линейной связи между признаками. Однако величина ковариации не указывает на силу взаимосвязи между функциями.

  • Если ковариация (X, Y) положительна, это означает, что большие значения одного признака соответствуют большим значениям другого признака, и то же самое верно для меньших значений (т. Е. Признаки имеют тенденцию чтобы показать аналогичное поведение)

  • Если ковариация (X, Y) отрицательна, это означает, что большие значения одного признака соответствуют меньшим значениям другого признака (т. Е. Признаки имеют тенденцию демонстрировать противоположное поведение )

Недостатки:

  1. На основании ковариации признаков нельзя интерпретировать степень сходства (или несходства) между признаками.
  2. Изменение единиц объекта может изменить значения ковариации признаков, что делает его ненадежным.

2. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА (PCC):

Коэффициент корреляции Пирсона - это статистика, которая измеряет линейную корреляцию между двумя характеристиками. Для двух функций X, Y пусть σX, σY - стандартные отклонения X, Y соответственно. PCC X, Y определяется как

Он имеет значение от +1 до -1, где

  • 1 - это идеальная положительная линейная корреляция
  • 0 означает отсутствие линейной корреляции
  • −1 - это идеальная отрицательная линейная корреляция

PCC дает представление о силе сходства между переменными (что является основным недостатком ковариации).

  • Если значение PCC равно -1, имеется строго отрицательная линейная корреляция.

  • Если значение PCC находится в диапазоне (-1,0), имеется не очень идеальная отрицательная линейная корреляция.

  • Если значение PCC лежит в (0, + 1), имеется не очень идеальная положительная линейная корреляция.

  • Если значение PCC равно +1, имеется строго положительная линейная корреляция.

  • Если значение PCC равно 0, корреляции нет.

Недостатки:

PCC плохо работает с нелинейными отношениями. PCC между элементами равен 0 для всех нижеприведенных графиков.

3. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАНГА SPEARMAN:

Коэффициент ранговой корреляции Спирмена (SRCC) оценивает, насколько хорошо взаимосвязь между двумя элементами может быть описана с помощью монотонной функции (линейной или нет), где PCC может оценивать только линейные отношения.

Коэффициент ранговой корреляции Спирмена между двумя переменными равен коэффициенту корреляции Пирсона между значениями ранга этих двух переменных. Ранг - это метка относительного положения наблюдений в пределах Переменная.

Интуитивно, коэффициент ранговой корреляции Спирмена между двумя переменными будет высоким, когда наблюдения имеют одинаковый ранг между двумя переменными, и низким, когда наблюдения имеют разный ранг между двумя переменными.

Коэффициент ранговой корреляции Спирмена находится между +1 и -1, где

  • 1 - это идеальная положительная корреляция
  • 0 - это корреляция отсутствует
  • −1 - это идеальная отрицательная корреляция

Преимущества:

  • Коэффициент ранговой корреляции Спирмена менее чувствителен, чем корреляция Пирсона, к сильным выбросам.
  • Коэффициент ранговой корреляции Спирмена, равный 1, получается, когда две сравниваемые переменные связаны монотонно, даже если их взаимосвязь не является линейной.

Спасибо за прочтение. Я собираюсь писать больше постов для новичков в будущем. Подпишитесь на меня на Medium, чтобы быть в курсе о них. Я приветствую обратную связь, и с ней можно связаться в Twitter ramya_vidiyala и LinkedIn RamyaVidiyala. Удачного обучения!