Оглавление:
- Типы переменных
- Меры центральной тенденции
- 5 Сводка по номерам
- Меры рассеивания
Типы переменных:
- Качественные переменные:
- Не имеет числового значения и не может быть подсчитана.
- Также называется категориальной переменной.
- Существуют в основном 2 типа качественных переменных:
- Номинал: Пример — название города, национальность человека, да/нет, верно/неверно, тип банковского счета, времена года и т.д.
- Порядковый номер: порядок имеет значение. Пример — обратная связь (плохо, хорошо, очень хорошо, отлично)
2. Количественные переменные:
- Имеет числовое значение, связанное с ним.
- Также называются непрерывными переменными.
- Пример — вес, цена акций, зарплата, остаток на банковском счете и т. д.
В науке о данных,
Переменные, которые нельзя использовать для арифметических операций, считаются категориальными переменными. Например, мы не можем сделать сумму 2 городов.
Переменные, которые можно использовать для арифметических операций, считаются непрерывными переменными. Например, мы можем выполнять арифметические операции с зарплатой, балансом счета, ростом, весом и т. д.
Показатели центральной тенденции:
- Среднее:
Допустим, у нас есть вышеуказанный набор данных.
Здесь среднее значение = 126/10 = 12,6.
2. Медиана:
- Чтобы найти медиану, сначала нам нужно отсортировать набор данных в порядке возрастания, а затем применить приведенную выше формулу.
- Здесь медиана = 3+3/2 = 3
3. Режим:
- Значение, которое встречается чаще всего.
- Здесь режим = 2 (поскольку в нашем наборе данных он встречается 3 раза)
Теперь, глядя на приведенное выше значение среднего, медианы и моды, мы можем ясно видеть, что на среднее значение влияет экстремальное значение (100 — это экстремальное значение в нашем наборе данных). Но это не так для медианы и моды.
Таким образом, когда в наборе данных в это время существует экстремальное значение, среднее не является подходящей мерой для получения информации о центральной точке.
Резюме 5 номеров:
Допустим, у нас есть следующие данные:
Сводка из 5 чисел многое говорит нам о распределении данных.
Сначала отсортируйте данные в порядке возрастания.
На приведенных выше изображениях 5 числовых сводок данных:
- Минимум = 1
2. Первый квартиль (Q1) = 2
3. Второй квартиль (медиана) = 3
4. Третий квартиль (Q3) = 4
5. Максимум = 100
Меры рассеивания:
Он рассказывает о том, как распространяются ваши данные (также известный как вариация, флуктуация).
- Диапазон:
Диапазон = максимум — минимум
Если в наших данных существует экстремальное значение, тогда диапазон не является подходящей мерой для использования.
2. Межквартильный диапазон (IQR):
IQR = Q3 - Q1
IQR удаляет верхние 25% и нижние 25% данных. Таким образом, даже если существуют экстремальные значения, он не будет учитывать эти значения для расчета диапазона.
IQR менее подвержен выбросам.
3. Стандартное отклонение:
- Стандартное отклонение говорит нам, насколько наблюдения далеки от среднего.
- Низкое стандартное отклонение означает, что данные сгруппированы вокруг среднего значения, а высокое стандартное отклонение означает, что данные более разбросаны.
- Ниже приведен пример, в котором мы собрали данные о ранах, забитых игроком в крикет А в 10 матчах.
Здесь для расчета дисперсии мы разделили сумму на 9, а не на 10. Почему?
Если игрок в крикет А сыграл только более 10 матчей за всю свою карьеру, то эти данные будут генеральной совокупностью, и мы должны использовать 10 вместо 9. Но, учитывая выборочные данные, мы использовали 9, а не 10.
Итак, здесь стандартное отклонение 30,60 говорит о том, что все точки данных в среднем на 30 отклоняются от среднего значения. Еще одна вещь, которую мы можем сказать здесь, это то, что игрок не последователен.
3. Коэффициент вариации (относительная дисперсия):
- Коэффициент вариации (CV) определяется как отношение стандартного отклонения к среднему значению.
- Допустим, у нас есть данные о последних 10 матчах двух игроков, и нам нужно решить, кого мы должны рассматривать для участия в чемпионате мира.
- Игрок в крикет А набирает в среднем 58,7 пробежек с S.D 12,57
- Крикетист B набирает в среднем 64,6 пробежек с SD 78,06.
Кто лучше?
- CV (A) = 12.57/58.7 = 0.21 = 21%
- CV (B) = 78.06/64.6 = 1.20 = 120%
Существует вариация 21% (риск) связана с игроком А, а вариация 120% (риск) связана с игроком Б.
Хотя среднее значение у игрока B высокое, мы будем рассматривать игрока A для участия в чемпионате мира из-за меньшего риска.