2/52 неделя

Цель этого - предоставить исчерпывающий обзор основ статистики таким образом, чтобы можно было быстро просмотреть его. Уже есть много статей, но я хочу сделать их более сжатыми!

Типы данных

Числовые: данные, выраженные цифрами; измеримо. Может быть дискретным (конечное количество значений) или непрерывным (бесконечное количество значений).

Категориальные: качественные данные, разделенные на категории. Может быть номинальным (без порядка) или порядковым (упорядоченные данные).

Меры центральной тенденции

Среднее: среднее значение набора данных.

Медиана: середина упорядоченного набора данных; менее восприимчив к выбросам

Режим: наиболее частое значение в наборе данных; актуально только для дискретных данных

Меры изменчивости

Диапазон: разница между самым высоким и самым низким значением в наборе данных.

Дисперсия (σ2): измеряет, насколько разброс набора данных относительно среднего.

Стандартное отклонение (σ): еще одно измерение разброса чисел в наборе данных; это квадратный корень из дисперсии.

Z-оценка: определяет количество стандартных отклонений точки данных от среднего.

R-Squared: статистическая мера соответствия, которая показывает, насколько вариации зависимой переменной объясняются независимой (ыми) переменной (ами); полезен только для простой линейной регрессии.

Скорректированный R-квадрат: модифицированная версия R-квадрата, скорректированная с учетом количества предикторов в модели; он увеличивается, если новый член улучшает модель больше, чем можно было бы ожидать случайно, и наоборот.

Измерения взаимосвязей между переменными

Ковариация: измеряет дисперсию между двумя (или более) переменными. Если положительное значение, то они склонны двигаться в одном направлении, если отрицательное - имеют тенденцию двигаться в противоположных направлениях, а если оно равно нулю, они не имеют отношения друг к другу.

Корреляция: измеряет силу взаимосвязи между двумя переменными и принимает значения от -1 до 1; нормализованная версия ковариации. Как правило, корреляция +/- 0,7 представляет собой сильную взаимосвязь между двумя переменными. С другой стороны, корреляция между -0,3 и 0,3 указывает на то, что между переменными практически нет взаимосвязи.

Функции распределения вероятностей

Функция плотности вероятности (PDF): функция для непрерывных данных, где значение в любой точке может быть интерпретировано как обеспечивающее относительную вероятность того, что значение случайной переменной будет равно этому образец. (Вики)

Функция массы вероятности (PMF): функция для дискретных данных, которая дает вероятность появления заданного значения.

Функция совокупной плотности (CDF): функция, которая сообщает нам вероятность того, что случайная величина меньше определенного значения; интеграл PDF.

Непрерывное распределение данных

Равномерное распределение: распределение вероятностей, при котором все исходы равновероятны.

Нормальное / гауссовское распределение: обычно называемое колоколообразной кривой и связано с центральной предельной теоремой; имеет среднее значение 0 и стандартное отклонение 1.

T-распределение: распределение вероятностей, используемое для оценки параметров генеральной совокупности при небольшом размере выборки и / r, когда дисперсия генеральной совокупности неизвестна (подробнее здесь)

Распределение хи-квадрат: распределение статистики хи-квадрат (см. здесь)

Дискретные распределения данных

Распределение Пуассона: распределение вероятностей, которое выражает вероятность того, что заданное количество событий произойдет в течение фиксированного периода времени.

Биномиальное распределение: распределение вероятностей количества успехов в последовательности из n независимых опытов, каждый из которых имеет свой собственный логический результат (p, 1-p).

Моменты

Моменты описывают различные аспекты характера и формы распределения. Первый момент - это среднее, второй момент - дисперсия, третий момент - асимметрия и четвертый момент - эксцесс.

Вероятность

Вероятность - это вероятность наступления события.

Условная вероятность [P (A | B)] - это вероятность возникновения события, основанная на возникновении предыдущего события.

Независимые события - это события, исход которых не влияет на вероятность исхода другого события; Р (А | В) = Р (А)

Взаимоисключающие события - это события, которые не могут происходить одновременно; P (A | B) = 0

Теорема Байеса: математическая формула для определения условной вероятности. «Вероятность A для данного B равна вероятности B для данного A, умноженной на вероятность A над вероятностью B»

Точность

Истинно положительный: обнаруживает условие, когда оно присутствует.

Истинно отрицательное значение: условие не определяется, если его нет.

Ложноположительный: обнаруживает условие, когда условие отсутствует.

Ложноотрицательный: условие не определяется при его наличии.

Чувствительность: также называется отзыв; измеряет способность теста обнаруживать состояние при его наличии; чувствительность = TP / (TP + FN)

Специфичность: измеряет способность теста правильно исключать условие, когда оно отсутствует; специфичность = TN / (TN + FP)

Положительное значение прогноза: также известное как точность; доля положительных результатов, соответствующих наличию условия; PVP = TP / (TP + FP)

Отрицательное значение прогноза: доля отрицательных значений, соответствующих отсутствию условия; PVN = TN / (TN + FN)

Проверка гипотез и статистическая значимость

Нулевая гипотеза: гипотеза о том, что выборочные наблюдения являются чисто случайными.

Альтернативная гипотеза: гипотеза о том, что на выборочные наблюдения влияет какая-то неслучайная причина.

P-значение: вероятность получения наблюдаемых результатов теста при условии, что нулевая гипотеза верна; меньшее значение p означает, что есть более веские доказательства в пользу альтернативной гипотезы.

Альфа: уровень значимости; вероятность отклонения нулевой гипотезы, если она верна - также известная как ошибка типа 1.

Бета: ошибка типа 2; неспособность отвергнуть нулевую гипотезу, которая ложна

Шаги к проверке гипотез:
1. Сформулируйте нулевую и альтернативную гипотезы
2. Определите размер теста; это одно- или двусторонний тест?
3. Вычислить статистику теста и значение вероятности
4. Проанализировать результаты и либо отклонить, либо не отклонять нулевую гипотезу (если p -значение больше альфа, не отвергайте нуль!)

…вот и все! Если позже я обнаружу, что пропустил много важных тем, я создам вторую часть этой статьи и сделаю гиперссылку на нее здесь. Спасибо!