Базовая статистика, которую НЕОБХОДИМО знать для науки о данных

Фундаментальные статистические концепции, которые помогут вам начать свой путь в науке о данных

Цель этого - предоставить исчерпывающий обзор основ статистики, которая вам понадобится, чтобы начать свой путь в науке о данных. Уже есть много статей, но я постараюсь сделать их более краткими!

Если вы нашли это ценным и хотели бы поддержать меня, загляните на мою страницу Patreon!

Типы данных

Числовые: данные, выраженные цифрами; измеримо. Он может быть дискретным или непрерывным.

Категориальные: качественные данные, разделенные на категории. Это может быть номинальный (без заказа) или порядковый (упорядоченные данные).

Меры центральной тенденции

Среднее: среднее значение набора данных.
Медиана: середина упорядоченного набора данных; менее подвержен выбросам.
Режим: наиболее частое значение в наборе данных; актуально только для дискретных данных.

Меры изменчивости

Диапазон: разница между самым высоким и самым низким значением в наборе данных.

Дисперсия (σ2): измеряет, насколько разброс набора данных относительно среднего.

Стандартное отклонение (σ): еще одно измерение разброса чисел в наборе данных; это квадратный корень из дисперсии.

Z-оценка: определяет количество стандартных отклонений точки данных от среднего.

R-Squared: статистическая мера соответствия, которая показывает, насколько вариации зависимой переменной объясняются независимыми переменными; полезен только для простой линейной регрессии.

Скорректированный R-квадрат: модифицированная версия R-квадрата, скорректированная с учетом количества предикторов в модели; он увеличивается, если новый член улучшает модель больше, чем можно было бы ожидать случайно, и наоборот.

Измерения взаимосвязей между переменными

Ковариация: измеряет дисперсию между двумя (или более) переменными. Если положительный, то они склонны двигаться в одном направлении, если отрицательный, то имеют тенденцию двигаться в противоположных направлениях, а если нулевой, они не имеют отношения друг к другу.

Корреляция: измеряет силу взаимосвязи между двумя переменными и принимает значения от -1 до 1; нормализованная версия ковариации. Как правило, корреляция +/- 0,7 представляет собой сильную взаимосвязь между двумя переменными. С другой стороны, корреляция между -0,3 и 0,3 указывает на то, что между переменными практически нет взаимосвязи.

Функции распределения вероятностей

Функция плотности вероятности (PDF): функция для непрерывных данных, где значение в любой точке может быть интерпретировано как обеспечивающее относительную вероятность того, что значение случайной переменной будет равно этому образец. (Вики)

Функция массы вероятности (PMF): функция для дискретных данных, которая дает вероятность появления заданного значения.

Функция совокупной плотности (CDF): функция, которая сообщает нам вероятность того, что случайная величина меньше определенного значения; интеграл PDF.

Непрерывное распределение данных

Равномерное распределение: распределение вероятностей, при котором все исходы равновероятны.

Нормальное / гауссовское распределение: обычно называемое колоколообразной кривой и связано с центральной предельной теоремой; имеет среднее значение 0 и стандартное отклонение 1.

T-распределение: распределение вероятностей, используемое для оценки параметров генеральной совокупности при небольшом размере выборки и / r, когда дисперсия генеральной совокупности неизвестна (подробнее см. здесь).

Распределение хи-квадрат: распределение статистики хи-квадрат (см. здесь).

Дискретные распределения данных

Распределение Пуассона: распределение вероятностей, которое выражает вероятность того, что заданное количество событий произойдет в течение фиксированного периода времени.

Биномиальное распределение: распределение вероятностей количества успехов в последовательности из n независимых опытов, каждый из которых имеет свой собственный логический результат (p, 1-p).

Моменты

Моменты описывают различные аспекты характера и формы распределения. Первый момент - это среднее, второй момент - дисперсия, третий момент - асимметрия и четвертый момент - эксцесс.

Вероятность

Вероятность - это вероятность наступления события.

Условная вероятность [P (A | B)] - это вероятность возникновения события, основанная на возникновении предыдущего события.

Независимые события - это события, исход которых не влияет на вероятность исхода другого события; Р (А | В) = Р (А).

Взаимоисключающие события - это события, которые не могут происходить одновременно; Р (А | В) = 0.

Теорема Байеса: математическая формула для определения условной вероятности. «Вероятность A для данного B равна вероятности B для данного A, умноженной на вероятность A над вероятностью B».

Точность

Истинно положительный: обнаруживает условие, когда оно присутствует.

Истинно отрицательное значение: условие не определяется, если его нет.

Ложноположительный: обнаруживает условие, когда условие отсутствует.

Ложноотрицательный: условие не определяется, если оно присутствует.

Чувствительность: также называется отзыв; измеряет способность теста обнаруживать состояние при его наличии; чувствительность = TP / (TP + FN)

Специфичность: измеряет способность теста правильно исключать условие, когда условие отсутствует; специфичность = TN / (TN + FP)

Положительное значение прогноза: также известное как точность; доля положительных результатов, соответствующих наличию условия; PVP = TP / (TP + FP)

Отрицательное значение прогноза: доля отрицательных значений, соответствующих отсутствию условия; PVN = TN / (TN + FN)

Проверка гипотез и статистическая значимость

Прочтите мою статью Проверка гипотез как можно проще для более глубокого объяснения здесь.

Нулевая гипотеза: гипотеза о том, что выборочные наблюдения являются чисто случайными.

Альтернативная гипотеза: гипотеза о том, что на выборочные наблюдения влияет какая-то неслучайная причина.

P-значение: вероятность получения наблюдаемых результатов теста при условии, что нулевая гипотеза верна; меньшее значение p означает, что есть более веские доказательства в пользу альтернативной гипотезы.

Альфа: уровень значимости; вероятность отклонения нулевой гипотезы, если она верна - также известная как ошибка типа 1.

Бета: ошибка типа 2; неспособность отвергнуть ложную нулевую гипотезу.

Шаги к проверке гипотез:
1. Сформулируйте нулевую и альтернативную гипотезы
2. Определите размер теста; это одно- или двусторонний тест?
3. Вычислить статистику теста и значение вероятности
4. Проанализировать результаты и либо отклонить, либо не отклонять нулевую гипотезу (если p -значение больше альфа, не отвергайте нуль!)

Вот и все! Если позже я обнаружу, что пропустил много важных тем, не стесняйтесь комментировать и дайте мне знать :)

Больше статей, подобных этой, можно найти на https://blog.datatron.com/.

Спасибо за прочтение!

Если вам нравится моя работа и вы хотите меня поддержать…

НАИЛУЧШИЙ способ поддержать меня - это подписаться на меня на Medium здесь.
Будьте одним из ПЕРВЫХ, кто подписался на меня в Twitter здесь. Я буду публиковать здесь много новостей и интересного!
Также будьте одним из ПЕРВЫХ, кто подпишется на мой новый канал YouTube здесь!
Следуйте за мной в LinkedIn здесь.
Зарегистрируйтесь в моем списке рассылки здесь.
Посетите мой сайт terenceshin.com.