2/52 неделя
Цель этого - предоставить исчерпывающий обзор основ статистики таким образом, чтобы можно было быстро просмотреть его. Уже есть много статей, но я хочу сделать их более сжатыми!
Типы данных
Числовые: данные, выраженные цифрами; измеримо. Может быть дискретным (конечное количество значений) или непрерывным (бесконечное количество значений).
Категориальные: качественные данные, разделенные на категории. Может быть номинальным (без порядка) или порядковым (упорядоченные данные).
Меры центральной тенденции
Среднее: среднее значение набора данных.
Медиана: середина упорядоченного набора данных; менее восприимчив к выбросам
Режим: наиболее частое значение в наборе данных; актуально только для дискретных данных
Меры изменчивости
Диапазон: разница между самым высоким и самым низким значением в наборе данных.
Дисперсия (σ2): измеряет, насколько разброс набора данных относительно среднего.
Стандартное отклонение (σ): еще одно измерение разброса чисел в наборе данных; это квадратный корень из дисперсии.
Z-оценка: определяет количество стандартных отклонений точки данных от среднего.
R-Squared: статистическая мера соответствия, которая показывает, насколько вариации зависимой переменной объясняются независимой (ыми) переменной (ами); полезен только для простой линейной регрессии.
Скорректированный R-квадрат: модифицированная версия R-квадрата, скорректированная с учетом количества предикторов в модели; он увеличивается, если новый член улучшает модель больше, чем можно было бы ожидать случайно, и наоборот.
Измерения взаимосвязей между переменными
Ковариация: измеряет дисперсию между двумя (или более) переменными. Если положительное значение, то они склонны двигаться в одном направлении, если отрицательное - имеют тенденцию двигаться в противоположных направлениях, а если оно равно нулю, они не имеют отношения друг к другу.
Корреляция: измеряет силу взаимосвязи между двумя переменными и принимает значения от -1 до 1; нормализованная версия ковариации. Как правило, корреляция +/- 0,7 представляет собой сильную взаимосвязь между двумя переменными. С другой стороны, корреляция между -0,3 и 0,3 указывает на то, что между переменными практически нет взаимосвязи.
Функции распределения вероятностей
Функция плотности вероятности (PDF): функция для непрерывных данных, где значение в любой точке может быть интерпретировано как обеспечивающее относительную вероятность того, что значение случайной переменной будет равно этому образец. (Вики)
Функция массы вероятности (PMF): функция для дискретных данных, которая дает вероятность появления заданного значения.
Функция совокупной плотности (CDF): функция, которая сообщает нам вероятность того, что случайная величина меньше определенного значения; интеграл PDF.
Непрерывное распределение данных
Равномерное распределение: распределение вероятностей, при котором все исходы равновероятны.
Нормальное / гауссовское распределение: обычно называемое колоколообразной кривой и связано с центральной предельной теоремой; имеет среднее значение 0 и стандартное отклонение 1.
T-распределение: распределение вероятностей, используемое для оценки параметров генеральной совокупности при небольшом размере выборки и / r, когда дисперсия генеральной совокупности неизвестна (подробнее здесь)
Распределение хи-квадрат: распределение статистики хи-квадрат (см. здесь)
Дискретные распределения данных
Распределение Пуассона: распределение вероятностей, которое выражает вероятность того, что заданное количество событий произойдет в течение фиксированного периода времени.
Биномиальное распределение: распределение вероятностей количества успехов в последовательности из n независимых опытов, каждый из которых имеет свой собственный логический результат (p, 1-p).
Моменты
Моменты описывают различные аспекты характера и формы распределения. Первый момент - это среднее, второй момент - дисперсия, третий момент - асимметрия и четвертый момент - эксцесс.
Вероятность
Вероятность - это вероятность наступления события.
Условная вероятность [P (A | B)] - это вероятность возникновения события, основанная на возникновении предыдущего события.
Независимые события - это события, исход которых не влияет на вероятность исхода другого события; Р (А | В) = Р (А)
Взаимоисключающие события - это события, которые не могут происходить одновременно; P (A | B) = 0
Теорема Байеса: математическая формула для определения условной вероятности. «Вероятность A для данного B равна вероятности B для данного A, умноженной на вероятность A над вероятностью B»
Точность
Истинно положительный: обнаруживает условие, когда оно присутствует.
Истинно отрицательное значение: условие не определяется, если его нет.
Ложноположительный: обнаруживает условие, когда условие отсутствует.
Ложноотрицательный: условие не определяется при его наличии.
Чувствительность: также называется отзыв; измеряет способность теста обнаруживать состояние при его наличии; чувствительность = TP / (TP + FN)
Специфичность: измеряет способность теста правильно исключать условие, когда оно отсутствует; специфичность = TN / (TN + FP)
Положительное значение прогноза: также известное как точность; доля положительных результатов, соответствующих наличию условия; PVP = TP / (TP + FP)
Отрицательное значение прогноза: доля отрицательных значений, соответствующих отсутствию условия; PVN = TN / (TN + FN)
Проверка гипотез и статистическая значимость
Нулевая гипотеза: гипотеза о том, что выборочные наблюдения являются чисто случайными.
Альтернативная гипотеза: гипотеза о том, что на выборочные наблюдения влияет какая-то неслучайная причина.
P-значение: вероятность получения наблюдаемых результатов теста при условии, что нулевая гипотеза верна; меньшее значение p означает, что есть более веские доказательства в пользу альтернативной гипотезы.
Альфа: уровень значимости; вероятность отклонения нулевой гипотезы, если она верна - также известная как ошибка типа 1.
Бета: ошибка типа 2; неспособность отвергнуть нулевую гипотезу, которая ложна
Шаги к проверке гипотез:
1. Сформулируйте нулевую и альтернативную гипотезы
2. Определите размер теста; это одно- или двусторонний тест?
3. Вычислить статистику теста и значение вероятности
4. Проанализировать результаты и либо отклонить, либо не отклонять нулевую гипотезу (если p -значение больше альфа, не отвергайте нуль!)
…вот и все! Если позже я обнаружу, что пропустил много важных тем, я создам вторую часть этой статьи и сделаю гиперссылку на нее здесь. Спасибо!