Разве это не очень сбивает с толку, когда понимаешь тему, но иногда чувствуешь себя совершенно не понятым. Ну, статистика может быть одним из них.

Давайте изучать одну тему за раз. Сегодня мы взялись за статистическое тестирование.

Любое статистическое тестирование помогает определить взаимосвязь и работает как доказательство или против гипотезы.

Чтобы получить общее представление о статистике, обратитесь к https://medium.com/@harshikakanthip/statistics-simplified-for-data-science-a44cd4e02923.

Что такое гипотеза?

Предположение, которое делается для проверки на достоверность. Предположение сделано на основе состояний по умолчанию и фактов, которые мы видим, но еще не доказаны. В нашем случае мы делаем утверждение, объясняющее взаимосвязь между двумя переменными. Его можно разделить на несколько видов:

Нулевая гипотеза. Утверждение, с которого мы начинаем, является нашим предположением о взаимосвязи между двумя переменными. Обозначается как H0.

пример: H0: Курение увеличивает риск рака.

Отмечается, что обычно любая нулевая гипотеза может использоваться с равными, ≤ и ≥ (A = B или A ≥ B или A≤ B).

Альтернативная гипотеза.Это утверждение является счетчиком нулевой гипотезы. Чтобы доказать обоснованность утверждения, нам нужно рассмотреть как аргументы за утверждение, так и против, чтобы при проверке мы могли получить надлежащие доказательства. Обозначается как Ha или H1.

пример: Из приведенного выше утверждения мы делаем прямо противоположное, что курение не увеличивает риск развития рака.

Поскольку это противоречит нулевой гипотезе, уравнения обычно имеют ‹› (не равно) , › ,‹ (A‹›B, A‹B, A›B)

Как проводить проверку гипотез?

Шаги:

  1. Сформулируйте нулевую и альтернативную гипотезы.
  2. Определить уровень значимости.
  3. Определите статистический тест, который необходимо провести.
  4. Вычислите тест.
  5. Рассчитать p-значение
  6. Сравните p-значение с уровнем значимости.
  7. Отклонить или не отклонить нулевую гипотезу.

Термины, используемые в тестировании:

  • Уровень значимости. Значение представлено альфа-каналом и представляет вероятность того, что закономерность в данных обусловлена ​​случайностью. Вероятность отклонения истинной нулевой гипотезы. Сумма принятого риска, прежде чем мы придем к выводу о статусе гипотезы. В общих бизнес-кейсах нормой является 5%, но в зависимости от вариантов использования также можно рассматривать более высокое или более низкое значение. В медицинских случаях нам нужно быть более точными, 1% — это обычно принимаемый риск.
  • p-значение: вероятность истинности нулевой гипотезы. P-значения сравниваются с уровнем значимости для принятия решений. Обозначается как п.
  • Критическое значение: значение, выше которого любая нулевая гипотеза отвергается, обозначается буквой C.
  • Статистика теста: значение, которое мы получаем в результате вычисления статистического теста, которое сравнивается с критическим значением для принятия решений. Обозначается как т.
  • Односторонний тест: когда наша нулевая гипотеза устанавливает значение сравнения, которое измеряет увеличение или уменьшение. Пример (H0 ‹H1)
  • Правосторонний тест: когда альтернативная гипотеза утверждает, что параметр больше, чем утверждает нулевая гипотеза.
  • Левосторонний тест: когда альтернативная гипотеза утверждает, что параметр меньше, чем утверждает нулевая гипотеза.
  • Двухсторонний тест: когда наша гипотеза утверждает сравнение равных. Пример (H0 = H1)

Предположения статистических тестов

При проведении любых статистических тестов необходимо учитывать следующие допущения:

Автокорреляция. Наблюдения, используемые для тестирования, не зависят друг от друга. Статистика Дарбина-Ватсона — это распространенный тест, используемый для автокорреляции. Тест дает значение от 0 до 4. Чем ближе значение к 0, тем сильнее положительная автокорреляция и ближе значение к 4, тем сильнее отрицательная автокорреляция. Чтобы данные не имели автокорреляции, значение должно быть как можно ближе к 2.

Нормальность данных.Данные имеют нормальное распределение. Это касалось только количественных данных. Быстрая визуализация гистограммы (в форме колокола) — хороший способ проверить нормальное распределение. Тест Шаприо-Уилка или критерий Жака-Бера также можно использовать для проверки нормального/гауссовского распределения.

Выбор статистического теста зависит от переменной предиктора и переменной предсказания.

Если эти предположения верны, мы используем параметрические статистические тесты, в противном случае выполняется непараметрический статический тест.

Тестирование

Тип 1:

  • Зависимая функция = непрерывная
  • Независимая функция = непрерывная
  • Параметрический тест = Пирсона r (коэффициент корреляции)
  • Непараметрический тест = Спирмен r
  • Линейная регрессия

Тип 2:

  • Зависимая функция = непрерывная
  • Независимая функция = Категориальная
  • Логистическая регрессия

Тип 3:

  • Зависимый признак = Категориальный (2 группы)
  • Независимая функция = непрерывная
  • Данные берутся из двух разных групп, независимых друг от друга. (Например, количество эритроцитов у мужчин и женщин)
  • Параметрический тест = двухвыборочный t-критерий
  • Непараметрический тест = критерий суммы рангов Уилкоксона

Тип 4:

  • Зависимый признак = Категориальный (2 группы)
  • Независимая функция = непрерывная
  • Данные берутся из двух групп, зависимых друг от друга. (Например, уровень сахара до еды и после еды)
  • Параметрический тест = парный t-тест
  • Непараметрический тест = критерий знакового ранга Вилкоксона

Тип 5:

  • Зависимый признак = Категориальный (3 или более групп)
  • Независимая функция = непрерывная
  • Параметрический тест = дисперсионный анализ
  • Непараметрический тест = Крушкал Уоллис

Тип 6:

  • Зависимая функция = Категориальная
  • Независимая функция = непрерывная
  • Данные берутся из двух разных групп, независимых друг от друга. (Например, количество эритроцитов у мужчин и женщин)
  • Параметрический тест = двухвыборочный t-критерий
  • Непараметрический тест = критерий суммы рангов Уилкоксона

Тип 7:

  • Зависимая функция = Категориальная
  • Независимая функция = Категориальная
  • Непараметрический тест = критерий хи-квадрат

Решение по гипотезе

На основе p-значения:

Значение P, являющееся вероятностью истинности нулевой гипотезы, сравнивается с уровнем значимости. Чем выше значение, тем выше вероятность не отвергнуть нулевую гипотезу.

  • значение p ‹ уровень значимости : Отклонить Нулевая гипотеза
  • p-value› уровень значимости: Не удалось отклонитьНулевая гипотеза

На основе критического значения:

  • критическое значение › тестовая статистика: Отклонить нулевую гипотезу (если хвост правый)
  • критическое значение ‹ тестовая статистика: Отклонить нулевую гипотезу (если оставить хвост)
  • Статистика теста находится в пределах критических значений: Не удалось отклонитьНулевая гипотеза (если двусторонняя)

Статистика говорит, что ошибки — лучшие учителя. Итак, давайте сделаем некоторые и улучшить себя.

СТАНЬТЕ ПИСАТЕЛЕМ на MLearning.ai