Гипотеза — это утверждение о том, что наблюдается во Вселенной. По сути, это претензия на что-то. Например, если я говорю, что выпивая 3 литра воды в день, кожа становится чистой, то я делаю утверждение, и это, по сути, гипотеза. Пока это утверждениене доказано, я не могу сказать, что это правда.

Чтобы доказать, что эта гипотеза (утверждение) верна, мне придется ее проверить. Это известно как проверка гипотез. Чтобы проверить любую гипотезу, нужно пройти ряд шагов. Давайте посмотрим на первые 2 шага

  1. Сформулируйте гипотезу, согласно которой в данном случае выпивание 3 литров воды в день приводит к чистоте кожи. Это то, что я наблюдал во Вселенной вокруг себя.
  2. Сформулируйте нулевую и альтернативную гипотезу.

Чтобы понять, что такое нулевая и альтернативная гипотезы, давайте сделаем небольшое отступление. Всякий раз, когда выдвигается какая-либо гипотеза или утверждение, речь идет о том, что что-то (чистая кожа) вызвано чем-то else(питьевая вода), как я сделал с моей гипотезой выше(корреляция). Однако ваша работа как специалиста по данным или аналитика состоит в том, чтобы задавать вопросы и проявлять скептицизм, пока не будет доказано обратное. Итак, всякий раз, когда выдвигается гипотеза, подобная той, которую я изложил выше, вы должны изображать из себя адвоката дьявола и говорить:но что, если питьевая вода не имеет ничего общего с чистой кожей. Это утверждение называется нулевой гипотезой.

Нулевая гипотеза предполагает, что отсутствует связь между тем, что было замечено или заявлено. То есть все, что мы заявляем (выпивание 3 литров воды в день приводит к чистой коже), является просто совпадением.

Альтернативная гипотеза, с другой стороны, является исходной гипотезой, которую я выдвинул, когда сказал, что выпивание 3 литров воды в день приводит к чистой коже. Альтернативная гипотеза противоположна нулевой гипотезе, которая состоит в том, что существует связь или корреляция.

Вам нужны обе эти гипотезы для проверки гипотез. Нулевая гипотеза обозначается Ho, а альтернативная гипотеза обозначается Ha.

Обратите внимание, что a и o в символах являются нижними индексами.

Итак, прежде чем мы начнем проверку нашей гипотезы, давайте сформулируем нашу нулевую и альтернативную гипотезы.

Но = Выпивание 3 литров воды в день не приводит к чистоте кожи.

Ха = ежедневное употребление 3 литров воды приводит к чистоте кожи.

Теперь, чтобы проверить нашу альтернативную гипотезу, мы должны сначала отклонить нулевую гипотезу. Но мы не можем просто так. Мы специалисты по данным! Нам нужны доказательства, прежде чем мы сможем его отвергнуть. Вот тут-то и появляется P-значение.

Что такое P-значение?

Значение P — это вероятность того, что нулевая гипотеза верна. Если нулевая гипотеза, утверждающая, что между наблюдаемыми нами фактами нет связи, верна em>, то у нас нет оснований для нашей альтернативной гипотезы.

Итак, похоже, нам нужны некоторые данные, чтобы доказать, что нулевая гипотеза (мистер, я не вижу никакой связи) ошибочна, поэтому мы можем принять альтернативную гипотезу. Это наша главная цель, когда мы проводим проверку гипотез.

Таким образом, мы можем сказать, что проверка гипотез — это процесс отклонения или невозможности отклонения нулевой гипотезы. Если нулевая гипотеза принимается, то это конец нашего анализа. Если она отвергнута, мы можем продолжить исследование нашей альтернативной гипотезы.

Процесс получения P-значения

Сначала нам нужно собрать наши данные.

Во-вторых, нам нужно определить наш уровень значимости. Что такое уровень значимости, спросите вы? Уровень значимости — это уровень, на котором вы решаете, имеет ли нулевая гипотеза достаточную значимость или нет. В науке о данных общепринятым соглашением для P-значения является 5% или 0,05. Это означает, что если я возьму 100 человек, которые выпивают 3 литра воды в день, и только 5 из них, то есть 5%, не имеют чистой кожи, то нулевая гипотеза об отсутствии взаимосвязи между питьем воды и очищением кожи. Сумасшедший, верно? Именно то, что я подумал, когда я впервые узнал об этом. Всего 5% данных, согласующихся с нулевой гипотезой, делают вашу альтернативную гипотезу недействительной.

Тем не менее, вы можете установить свой собственный уровень значимости в зависимости от случая, над которым вы работаете, однако обратите внимание на следующие пороговые значения.

  1. Если ваше значение P меньше 0,01, то есть 1 % → у вас есть чрезвычайно веские доводы или доказательства против нулевой гипотезы.
  2. Если ваше значение P находится в диапазоне от 0,01 до 0,05, т. е. 1–5 % → у вас есть сильноеобоснование против нулевой гипотезы.(отраслевой стандарт)
  3. Если ваше P-значение находится в диапазоне от 0,05 до 0,1, т. е. 5–10 % → у вас есть мягкий случай против нулевой гипотезы.
  4. Если ваше P-значение больше 0,10, т. е. 10% → у вас нет аргументов против нулевой гипотезы, и вам просто нужно принять нулевую гипотезу.

Так как же получить это число P-значения. Не волнуйтесь, вам не придется вычислять это вручную, есть несколько модулей Python с функциями, предназначенными для вычисления P-значения. Даже если вы не будете вычислять P-значения вручную, вы должны быть знакомы с некоторыми распространенными тестами, которые можно использовать для получения P-значения, такими как;

  1. Т-тест
  2. Z-тест
  3. Хи-квадрат
  4. Анова

Мы рассмотрим эти типы тестов в следующей статье. Если вы хотите узнать больше о машинном обучении или анализе данных, ознакомьтесь с Профессиональной программой по анализу данных Azubi Africa.

Удачного кодирования!

Следуйте за мной на GitHub, LinkedIn и здесь, на Medium.