Когда какой тест использовать - Т-тест, Тест хи-квадрат, ANOVA.

Статистика - неотъемлемая часть науки о данных и машинного обучения. Статистика - это подполе математики, которая относится к формализации отношений между переменными в форме математических уравнений. Он пытается найти отношения между переменными, чтобы предсказать результаты. Суть статистики - это изучение сбора, анализа, интерпретации, представления и организации.

Существует множество статистических тестов для измерения взаимосвязи внутри переменных или между ними. Во время проекта по обработке и анализу данных специалист по анализу данных часто задается вопросом, какие статистические методы использовать для определения типа данных или переменных и когда. В этой статье вы можете прочитать о базовых представлениях о нескольких типах статистических тестов, а также о том, когда и как их использовать для вашего набора данных.

Один образец теста против двух образцов теста:

Один образец теста - это статистическая процедура, рассматривающая анализ одного столбца или функции. Это может быть анализ процентного распределения (категориальная переменная) или анализ среднего (непрерывная переменная).

С другой стороны, двухвыборочный тест - это статистическая процедура для сравнения или вычисления взаимосвязи между двумя случайными величинами.

Одноэлементный тест:

Как обсуждалось выше, тест с одной выборкой включает проверку гипотезы одной случайной величины.

  • Один образец T-теста для среднего. Для числовой или непрерывной переменной вы можете использовать однократный T-тест для среднего, чтобы проверить, что среднее значение вашей генеральной совокупности отличается от постоянного значения. Например, компания MNC заинтересована в том, чтобы проверить, средний возраст ее сотрудников составляет 30 лет. Для получения результата они могут использовать t-критерий с одной выборкой.

Here, t-stat follows a t-distribution having n-1 DOF
x̅: mean of the sample
µ: mean of the population
S: Sample standard deviation
n: number of observations
  • Один образец Т-критерия пропорции: один образец теста пропорции используется для оценки доли населения. Для категориальных переменных вы можете использовать однократный t-критерий пропорциональности, чтобы проверить распределение категорий.

p̂: Observed probability of one certain outcome occurring
p0: hypothesized probability
n: number of trials.

Двухвыборочный тест:

При проверке гипотез тест с двумя выборками выполняется на данных двух случайных величин, каждая из которых получена из независимой совокупности. Тест может использоваться для проверки статистически значимой разницы между двумя образцами.

Как только вы выясните назначение и тип данных вашей случайной переменной, вы получите в основном 3 широкие категории комбинаций типов данных:

  • Две непрерывные переменные
  • Одна непрерывная и другая категориальная переменная
  • Две категориальные переменные

Статистический тест между двумя непрерывными переменными:

Когда ваш эксперимент пытается найти связь между двумя непрерывными переменными, вы можете использовать статистические тесты корреляции.

Корреляция Пирсона:

Корреляция Пирсона - это статистический метод, используемый для измерения степени взаимосвязи между двумя линейно связанными переменными. Значение его коэффициента находится в диапазоне [1, -1], независимо от того, обозначает ли 1 положительную корреляцию, -1 обозначает отрицательную корреляцию, а 0 обозначает отсутствие корреляции.

Корреляция рангов Спирмена:

Ранговая корреляция Спирмена между двумя случайными величинами равна корреляции Пирсона между ранговыми значениями двух переменных. Его можно использовать для измерения монотонной связи между двумя непрерывными случайными величинами. Значение его коэффициента находится в диапазоне [1, -1], независимо от того, обозначает ли 1 положительную корреляцию, -1 обозначает отрицательную корреляцию, а 0 обозначает отсутствие корреляции.

Статистический тест между одной непрерывной и другой категориальной переменной:

Т-тест:

Когда ваш эксперимент пытается провести сравнение или найти разницу между одной категориальной (с двумя категориями) и другой непрерывной переменной, вам нужно поработать над двухвыборочным T-тестом, чтобы найти значительную разницу между двумя переменными.

ANOVA:

Когда ваш эксперимент пытается провести сравнение или найти разницу между одной категориальной (с более чем двумя категориями) и другой непрерывной переменной, вы используете тест ANOVA (дисперсионный анализ).

Статистический тест между двумя категориальными переменными:

Тест хи-квадрат:

Когда ваш эксперимент пытается провести сравнение или найти разницу между двумя категориальными случайными величинами, вы можете использовать тест хи-квадрат, чтобы проверить статистическую разницу.

Заключение:

В этой статье мы обсудили статистические методы, а также когда какой тест использовать для получения взаимосвязей или выводов между или внутри случайных величин. Используя описанные выше статистические методы, вы можете оценить влияние одной переменной на другую.

Корреляция между двумя непрерывными переменными используется для измерения их взаимосвязи. Все остальные статистические тесты могут использоваться для сравнения двух случайных величин, а значение p может использоваться для принятия или отклонения нулевой гипотезы.

Использованная литература:

[1] Статистические решения: https://www.statisticssolutions.com/correlation-pearson-kendall-spearman/

Понравилась статья? Станьте средним участником, чтобы продолжить обучение без ограничений. Если вы воспользуетесь следующей ссылкой, я получу небольшую часть вашего членского взноса без каких-либо дополнительных затрат.



Спасибо за чтение