Всем привет!
Этот блог предназначен для всех, кто занимается наукой о данных и хочет лучше понять статистику, или для тех, кто заблудился в статистике на местах и ​​пытается узнать, с чего начать и что изучать дальше. статистику и возможности, когда вы начинаете изучать машинное обучение, тогда этот блог для вас, ребята. Я собираюсь написать серию блогов о статистике и вероятностях.
Не стесняйтесь следить за моей страницей для получения дополнительной информации о статистике и вероятностях.

Это третий блог из серии статистических данных для науки о данных. Если вы не читали мой предыдущий блог, нажмите здесь.

Урок 3.1. Описание категорийных данных с помощью графиков и таблиц

Цель
1) Построить и интерпретировать частотное распределение и относительное частотное распределение для качественных данных.
2) Построить и интерпретировать столбчатую диаграмму и диаграммы Парето.
3) Построить и интерпретировать круговую диаграмму.
4) Построить перекрестную таблицу, чтобы описать взаимосвязь между двумя переменными.
5) Построить гистограмму с кластерами, чтобы описать взаимосвязь между двумя переменными.

Распределение частот и относительное распределение частот

Относительная частота

  • Частотное распределение — это метод, используемый для суммирования значений в наборе данных.
  • Частота или количество категориального значения относится к количеству наблюдений в каждой категории.
  • Распределение частот для качественной переменной представляет собой список всех значений.

Пример частотного распределения

Частота каждой консоли

Относительная частота

Относительная частота качественной переменной равна частоте, деленной на размер выборки.

Относительная частота = Частота / Размер выборки

Гистограммы и диаграммы Парето

Гистограмма:

Гистограмма используется для представления частоты или относительной частоты категориальных данных.

Он построен следующим образом:

  • На горизонтальной оси укажите метку для каждой категории.
  • Нарисуйте прямоугольник (столбцы) одинаковой ширины для каждой категории. Высота каждого прямоугольника представляет частоту каждой категории.
  • Убедитесь, что стержни не соприкасаются.

Диаграмма Парето

Диаграмма Парето представляет собой гистограмму, на которой три прямоугольника представлены в порядке убывания слева направо.

Круговые диаграммы

  • Круговая диаграмма является распространенным графическим устройством для отображения относительной частоты категориальной переменной.
  • Круговая диаграмма представляет собой круг, разделенный на секции, каждая из которых представляет определенную категорию.
  • Размер раздела пропорционален относительной частоте категории.

Кросстабуляция

  • Кросс-табулирование — это табличный метод одновременного суммирования данных двух категориальных переменных.
  • мы можем использовать перекрестную таблицу, чтобы найти закономерности в наборе данных.

Этапы построения перекрестной таблицы

Шаг 1: Поместите категорию одной переменной вверху каждого столбца и категории другой переменной в начале каждой строки.

Шаг 2: Для каждой комбинации строки и столбца введите количество наблюдений, подпадающих под 2 категории.

Шаг 3: В нижней части таблицы указаны итоги по столбцам, а в правой части таблицы — итоги по строкам.

Рассмотрим пример,
В приведенной ниже таблице содержится информация о размере (компактный, средний или большой) и рекомендуемом бензине (обычный или премиум) для выборки из десяти автомобилей 2011 года
a . Постройте перекрестную таблицу переменных размера и бензина.
b. Определите любые закономерности.

Перекрестная таблица приведенной выше таблицы приведена ниже.

Гистограмма кластеризации

  • Гистограмма кластеризации полезна при сравнении двух категориальных переменных и часто используется в сочетании с кросс-таблицей.
  • Каждый из столбцов на гистограмме кластеризации представляет одну категорию одной переменной по всей категории другой категориальной переменной.

Давайте рассмотрим пример
. Исходный вопрос опроса гласил: «Какую из следующих эмоций вы испытываете сильнее всего в ответ на эти террористические атаки: печаль, страх, гнев?» , неверие, уязвимость?

Это все об этом блоге. Надеюсь, вы, ребята, получили представление о том, что такое графики и таблицы для категорийных данных в статистике. Давайте обсудим больше о графиках и таблицах для числовых данных в следующем блоге.

Не стесняйтесь оставлять комментарии, лайкать и делиться этим блогом.

Спасибо!
Приятного обучения :)