Основная статистика

Оглавление:

Типы переменных
Меры центральной тенденции
5 Сводка по номерам
Меры рассеивания

Типы переменных:

Качественные переменные:

Не имеет числового значения и не может быть подсчитана.
Также называется категориальной переменной.
Существуют в основном 2 типа качественных переменных:

Номинал: Пример — название города, национальность человека, да/нет, верно/неверно, тип банковского счета, времена года и т.д.
Порядковый номер: порядок имеет значение. Пример — обратная связь (плохо, хорошо, очень хорошо, отлично)

2. Количественные переменные:

Имеет числовое значение, связанное с ним.
Также называются непрерывными переменными.
Пример — вес, цена акций, зарплата, остаток на банковском счете и т. д.

В науке о данных,

Переменные, которые нельзя использовать для арифметических операций, считаются категориальными переменными. Например, мы не можем сделать сумму 2 городов.

Переменные, которые можно использовать для арифметических операций, считаются непрерывными переменными. Например, мы можем выполнять арифметические операции с зарплатой, балансом счета, ростом, весом и т. д.

Показатели центральной тенденции:

Среднее:

Допустим, у нас есть вышеуказанный набор данных.

Здесь среднее значение = 126/10 = 12,6.

2. Медиана:

Чтобы найти медиану, сначала нам нужно отсортировать набор данных в порядке возрастания, а затем применить приведенную выше формулу.

Здесь медиана = 3+3/2 = 3

3. Режим:

Значение, которое встречается чаще всего.
Здесь режим = 2 (поскольку в нашем наборе данных он встречается 3 раза)

Теперь, глядя на приведенное выше значение среднего, медианы и моды, мы можем ясно видеть, что на среднее значение влияет экстремальное значение (100 — это экстремальное значение в нашем наборе данных). Но это не так для медианы и моды.

Таким образом, когда в наборе данных в это время существует экстремальное значение, среднее не является подходящей мерой для получения информации о центральной точке.

Резюме 5 номеров:

Допустим, у нас есть следующие данные:

Сводка из 5 чисел многое говорит нам о распределении данных.

Сначала отсортируйте данные в порядке возрастания.

На приведенных выше изображениях 5 числовых сводок данных:

Минимум = 1

2. Первый квартиль (Q1) = 2

3. Второй квартиль (медиана) = 3

4. Третий квартиль (Q3) = 4

5. Максимум = 100

Меры рассеивания:

Он рассказывает о том, как распространяются ваши данные (также известный как вариация, флуктуация).

Диапазон:

Диапазон = максимум — минимум

Если в наших данных существует экстремальное значение, тогда диапазон не является подходящей мерой для использования.

2. Межквартильный диапазон (IQR):

IQR = Q3 - Q1

IQR удаляет верхние 25% и нижние 25% данных. Таким образом, даже если существуют экстремальные значения, он не будет учитывать эти значения для расчета диапазона.

IQR менее подвержен выбросам.

3. Стандартное отклонение:

Стандартное отклонение говорит нам, насколько наблюдения далеки от среднего.
Низкое стандартное отклонение означает, что данные сгруппированы вокруг среднего значения, а высокое стандартное отклонение означает, что данные более разбросаны.
Ниже приведен пример, в котором мы собрали данные о ранах, забитых игроком в крикет А в 10 матчах.

Здесь для расчета дисперсии мы разделили сумму на 9, а не на 10. Почему?

Если игрок в крикет А сыграл только более 10 матчей за всю свою карьеру, то эти данные будут генеральной совокупностью, и мы должны использовать 10 вместо 9. Но, учитывая выборочные данные, мы использовали 9, а не 10.

Итак, здесь стандартное отклонение 30,60 говорит о том, что все точки данных в среднем на 30 отклоняются от среднего значения. Еще одна вещь, которую мы можем сказать здесь, это то, что игрок не последователен.

3. Коэффициент вариации (относительная дисперсия):

Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению.
Допустим, у нас есть данные о последних 10 матчах двух игроков, и нам нужно решить, кого мы должны рассматривать для участия в чемпионате мира.

Игрок в крикет А набирает в среднем 58,7 пробежек с S.D 12,57
Крикетист B набирает в среднем 64,6 пробежек с SD 78,06.

Кто лучше?

CV (A) = 12.57/58.7 = 0.21 = 21%
CV (B) = 78.06/64.6 = 1.20 = 120%

Существует вариация 21% (риск) связана с игроком А, а вариация 120% (риск) связана с игроком Б.

Хотя среднее значение у игрока B высокое, мы будем рассматривать игрока A для участия в чемпионате мира из-за меньшего риска.

Основная статистика

Типы переменных:

Показатели центральной тенденции:

Резюме 5 номеров:

Меры рассеивания:

Спасибо.

Вопросы по теме