Квантиль и процентили:

Квантиль делит набор данных на группы одинакового размера и полезен для понимания распределения данных, сравнения наборов данных и выявления выбросов.

В статистическом анализе используется несколько типов квантилей, в том числе:

Квантиль — это статистическая мера, которая делит набор числовых данных на группы одинакового размера, включая квартили (4 части), децили (10 частей), процентили (100 частей) и квинтили (5 частей).

Что нужно помнить при расчете этих показателей:

При расчете квантилей не забывайте сортировать данные, находить место наблюдения и понимать, что они не являются фактическими значениями; другие квантили могут быть получены из процентилей.

Процентиль:

Формула для расчета значения процентиля: PL = (P)*(N+1)/100, где PL — значение процентиля, P — ранг процентиля, а N — общее количество наблюдений в наборе данных.

Формула процентного ранга (X + (0,5*Y))/N используется для определения положения заданного значения в наборе данных в процентах от общего числа значений.

Резюме 5 чисел:

Сводка из пяти чисел — это сводка набора данных, состоящего из пяти значений, разделенных на четыре квартили.

Сводка из пяти чисел представляет собой описательную статистику, состоящую из минимального значения, первого квартиля (Q1), медианы (Q2), третьего квартиля (Q3) и максимального значения набора данных. Он используется для обобщения центральной тенденции, изменчивости и распределения данных и часто представляется визуально в виде коробчатой ​​диаграммы.

Межквартильный диапазон:

Межквартильный размах (IQR) — это разница между третьим квартилем (Q3) и первым квартилем (Q1) набора данных.

Блочные диаграммы

Что такое боксплот

Коробчатая диаграмма — это визуальная сводка минимальных и максимальных значений, первого квартиля (Q1), медианы (Q2) и третьего квартиля (Q3) набора данных.

Как создать коробку с примером:

Чтобы создать коробчатую диаграмму, мы сортируем данные и вычисляем первый квартиль (Q1), медиану (Q2) и третий квартиль (Q3). Затем мы находим усы, вычисляя минимальное и максимальное значения как Q1–1,5(IQR) и Q3 + 1,5(IQR) соответственно, где IQR — межквартильный размах (IQR = Q3 — Q1) . Если минимальное значение отсутствует в данных, мы рассматриваем ближайшее большее значение как минимальное значение. Если максимальное значение отсутствует в данных, мы рассматриваем ближайшее меньшее значение как максимальное значение. Любые значения меньше минимального значения или больше максимального значения считаются выбросами. Если срединная линия на ящичковой диаграмме проходит посередине ящика, то распределение равномерное, если нет, то оно асимметрично; отрицательно, если ближе к нижнему концу коробки, и положительно, если ближе к верхнему концу.

Бок о бок

Боковая диаграмма рядом — это графическое представление двух или более наборов данных на одном графике, что позволяет легко сравнивать их распределение и сводную статистику.

Диаграммы рассеяния

Точечная диаграмма — это график, который отображает взаимосвязь между двумя переменными, представленными в виде набора точек на двумерной координатной плоскости, где одна переменная отложена по оси x, а другая — по оси y, и используется для визуализировать корреляции или отношения между переменными.

Ковариация

Ковариация — это мера того, как две переменные изменяются вместе, указывающая на силу линейной связи между ними.

Какую проблему решает ковариация?

Ковариация измеряет направление и силу линейной зависимости между двумя переменными, помогая выявлять закономерности и делать прогнозы.

Что такое ковариация и как ее интерпретировать?

Ковариация — это статистическая мера линейной зависимости между двумя переменными, где положительное значение указывает на то, что они имеют тенденцию двигаться вместе, отрицательное значение указывает на то, что они имеют тенденцию двигаться в противоположных направлениях, а ноль указывает на отсутствие линейной зависимости.

Как это рассчитывается?

Ковариация рассчитывается по формуле: Cov(X,Y) = Σ [(Xi — µX) * (Yi — µY)] / N для населения и Cov(X,Y) = Σ [(Xi — X̄) * (Yi — Ȳ ) ] / (n — 1) для выборки, где X и Y — случайные величины, Xi и Yi — отдельные наблюдения, μX и μY — средние значения совокупности, X̄ и Ȳ — средние значения выборки, N — размер совокупности, n — размер выборки.

Недостатки использования ковариации

Недостатки использования ковариации включают отсутствие указания силы или направления взаимосвязи между двумя переменными, влияние масштаба переменных и чувствительность к выбросам.

Ковариация переменной сама с собой

Ковариация переменной сама с собой (т. е. дисперсия) рассчитывается как сумма квадратов отклонений от среднего, деленная на n-1.

Корреляция

Корреляция измеряет силу и направление статистической связи между двумя переменными с коэффициентом от -1 до 1 и используется в различных областях, включая статистику, экономику, психологию и социальные науки.

Какую проблему решает корреляция?

Корреляция помогает понять взаимосвязь между двумя переменными с сильной положительной, слабой положительной, сильной отрицательной, слабой отрицательной, умеренно отрицательной корреляцией или отсутствием корреляции и может использоваться в прогнозировании, проверке гипотез и принятии решений в различных областях.

Что такое корреляция?

Корреляция измеряет степень взаимосвязи между двумя переменными с использованием коэффициента в диапазоне от -1 до 1, где -1 указывает на полную отрицательную корреляцию, 0 указывает на отсутствие корреляции, а 1 указывает на полную положительную корреляцию и рассчитывается по формуле корреляция = Cov(x ,y)/(σx * σy), где Cov(x,y) — ковариация между двумя переменными, а σx и σy — их стандартные отклонения, которые рассчитываются по формуле стандартное отклонение = sqrt(дисперсия).

Корреляция и причинность

Фраза «корреляция не подразумевает причинно-следственную связь» означает, что корреляция между двумя переменными не обязательно подразумевает причинно-следственную связь, поскольку за нее могут быть ответственны другие переменные.

Визуализация нескольких переменных

Визуализация нескольких переменных включает создание графических представлений или графиков, которые позволяют проводить одновременный анализ и сравнение данных по двум или более переменным.

"Кликните сюда, чтобы узнать больше"