Разработка функций и выбор функций, несомненно, являются важным методом науки о данных. Если вы хотите, чтобы ваша модель машинного обучения работала хорошо, вам необходимо выполнить корреляцию между нашими функциями и целью, чтобы мы могли получить четкое представление о наборе данных. Существует множество различных типов корреляции, которые мы можем применить к нашему набору данных, с помощью которых мы можем получить желаемые результаты. В нашем случае мы собираемся сначала изучить функцию pandas corr().

Функцию Pandas corr() можно применять как функцию к кадру данных pandas. Это позволяет вам установить метод корреляции между тремя методами, названными Пирсоном, Спирменом и Кендаллом. Здесь мы подробно рассмотрим каждый из них.

Корреляции Пирсона:

Наиболее часто используемым здесь методом корреляции является корреляция Пирсона. Это также метод по умолчанию в методе corr(). Он соответствует ковариации двух переменных, нормализованной (то есть разделенной) на произведение их стандартных отклонений. С помощью этого типа корреляции мы можем найти линейную связь между функциями. Таким образом, корреляция Пирсона относится к линейной корреляции между функциями.

Мы можем использовать это в методе corr(), указав метод для «pearson».

Корреляция Спирмена:

Это еще один широко используемый метод корреляции, который представляет собой корреляцию Спирмена. Корреляция Спирмена между двумя переменными равна корреляции Пирсона между ранговыми оценками этих двух переменных; в то время как корреляция Пирсона оценивает линейные отношения, корреляция Спирмена оценивает монотонные отношения (линейные или нет). Монотонная связь между двумя переменными относится к сценарию, в котором изменение одной переменной обычно связано с изменением в определенном направлении другой переменной. Оно может быть линейным или нелинейным.

Мы можем указать атрибут метода в corr() для «spearman».

Ранговый метод Кендалла:

В обычном случае корреляция Кендалла предпочтительнее корреляции Спирмена из-за меньшей чувствительности к грубым ошибкам (GES) и меньшей асимптотической дисперсии (AV), что делает ее более надежной и эффективной. Ранговая корреляция Кендалла используется для проверки сходства в упорядочении данных при их ранжировании по количеству. Другие типы коэффициентов корреляции используют наблюдения в качестве основы корреляции, коэффициент корреляции Кендалла использует пары наблюдений и определяет силу связи на основе шаблона соответствия и несоответствия между парами.

Это здорово использовать, когда мы собираемся найти монотонную связь между нашими функциями. Лучше использовать при поиске корреляции между категориальными признаками.

Двухвзвешенная средняя корреляция:

Мера сходства, основанная на медиане, а не на традиционном среднем значении, что делает ее менее чувствительной к выбросам. Следовательно, если набор данных и признаки имеют много выбросов, лучше использовать эту корреляцию вместо других корреляций. Весь вывод этой корреляции может быть получен следующим образом: x и y являются признаками.

Чтобы применить эту корреляцию, нам нужно будет импортировать новую библиотеку с именем pinguoin. Мы можем импортировать его и использовать его метод corr()

Корреляция расстояния:

Дистанционная корреляция — это мера силы связи между нелинейными случайными величинами. Он выходит за рамки корреляции Пирсона, потому что может обнаруживать больше, чем линейные ассоциации, и может работать многомерно. Это недавно введенные метрики корреляции между векторами, т.е. признаками. Пусть X и Y - два вектора, тогда мы можем вычислить корреляцию между ними, используя следующие формулы

Мы можем использовать это в python, используя модуль с именем dcor. Чтобы использовать это, сначала мы должны установить этот модуль и использовать его функцию dcor.distance_correlation(X,Y).

Заключение:

Это несколько показателей, которые мы можем использовать для определения корреляции между функциями, чтобы мы могли понять наши данные и снова получить лучшие результаты. Поиск корреляции — важный шаг в обработке данных и пайплайне науки о данных, и мы можем получить гораздо лучшие результаты, если будем использовать правильные метрики в соответствии с нашими данными.

Предложения для будущих чтений:



а еще вот этот: