Точечная диаграмма - это график двух переменных, который используется, чтобы понять, существует ли какая-либо связь между двумя переменными. Отношения могут быть линейными или нелинейными. Он также используется для выявления выбросов.

Мы могли видеть случайные точки, но какие отношения мы можем видеть?

По графику мы можем сказать, что между этими двумя переменными существует некоторая линейная зависимость. Когда переменная X (culmen_length_mm) увеличивается, переменная Y (body_mass_g) также увеличивается (положительная корреляция).

Насколько крепки отношения?

Из приведенных выше графиков мы могли бы четко сказать, что оба графика имеют линейную связь с положительной корреляцией, но какой график имеет более сильную корреляцию?

Для этого нам нужно с чем-то сравнивать цифры. Следовательно, мы используем коэффициент корреляции Пирсона.

Коэффициент Пирсона - это тип коэффициента корреляции, который представляет взаимосвязь между двумя переменными, которые измеряются в одном интервале или шкале отношений. Коэффициент Пирсона - это мера силы связи между двумя непрерывными переменными. Корреляции Пирсона подходят только для количественных переменных.

Формула коэффициента корреляции Пирсона:

  • Коэффициенты Пирсона варьируются от +1 до -1, где +1 представляет положительную корреляцию, -1 представляет отрицательную корреляцию, а 0 означает отсутствие связи. Он не зависит от единицы измерения переменных.
  • Коэффициент Пирсона показывает корреляцию, а не причинно-следственную связь.
  • Коэффициент корреляции между переменными является симметричным, что означает, что значение коэффициента корреляции между Y и X или X и Y останется прежним.
  • Корреляции очень чувствительны к выбросам. Одно необычное наблюдение может иметь огромное влияние на корреляцию. Такие выбросы легко обнаруживаются при быстром просмотре диаграммы рассеяния.

Коэффициенты Пирсона для двух вышеупомянутых графиков равны 0,59. Оба графика имеют одинаковый коэффициент корреляции, потому что левый график - это не что иное, как увеличенная версия правого графика.

ВИДЫ КОРРЕЛЯЦИИ СО ЗНАЧЕНИЕМ ИХ СООТВЕТСТВУЮЩЕГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА

Положительная корреляция → переменная X увеличивается, переменная Y также увеличивается. (X прямо пропорционален Y)

Отрицательная корреляция → переменная X увеличивается, переменная Y уменьшается. (X обратно пропорционален Y)

Нет корреляции → Нет корреляции между переменной X и переменной Y.

Из графика видно, что кривая существует, но коэффициент корреляции Пирсона равен нулю.

Коэффициент корреляции Пирсона определяет только линейную зависимость. Если существует какая-либо нелинейная взаимосвязь, такая как кривая, круг и т. д., значение коэффициента корреляции Пирсона будет равно 0. Следовательно, всегда лучше визуализировать любой набор данных в виде диаграммы рассеяния, чтобы найти любые скрытые не- линейные узоры.

Корреляция - это только ассоциативная связь, а не причинно-следственная связь.

Из рисунка выше мы не можем сказать, что если у человека есть кошка, его скорее всего ударит молния, хотя существует положительная корреляция. Две переменные могут иметь высокое значение коэффициента корреляции, хотя между ними может не быть прямой зависимости. Это не означает, что X вызвало Y, или наоборот.

ИНТРАПОЛЯЦИЯ И ЭКСТРАПОЛЯЦИЯ

Точечная диаграмма с размером пункта, основанным на третьей переменной, на самом деле имеет другое название - пузырьковая диаграмма.

Диаграмма разброса с размером точек, основанным на третьей переменной («пол»), и цветом, основанным на четвертой переменной («остров»), показана на пузырьковой диаграмме выше.