Всем привет!
Этот блог предназначен для всех, кто занимается наукой о данных и хочет лучше понять статистику, или для тех, кто заблудился в статистике на местах и пытается узнать, с чего начать и что изучать дальше. статистику и возможности, когда вы начинаете изучать машинное обучение, тогда этот блог для вас, ребята. Я собираюсь написать серию блогов о статистике и вероятностях.
Не стесняйтесь следить за моей страницей для получения дополнительной информации о статистике и вероятностях.
Это третий блог из серии статистических данных для науки о данных. Если вы не читали мой предыдущий блог, нажмите здесь.

Урок 3.1. Описание категорийных данных с помощью графиков и таблиц
Цель
1) Построить и интерпретировать частотное распределение и относительное частотное распределение для качественных данных.
2) Построить и интерпретировать столбчатую диаграмму и диаграммы Парето.
3) Построить и интерпретировать круговую диаграмму.
4) Построить перекрестную таблицу, чтобы описать взаимосвязь между двумя переменными.
5) Построить гистограмму с кластерами, чтобы описать взаимосвязь между двумя переменными.
Распределение частот и относительное распределение частот
Относительная частота
- Частотное распределение — это метод, используемый для суммирования значений в наборе данных.
- Частота или количество категориального значения относится к количеству наблюдений в каждой категории.
- Распределение частот для качественной переменной представляет собой список всех значений.
Пример частотного распределения

Частота каждой консоли

Относительная частота
Относительная частота качественной переменной равна частоте, деленной на размер выборки.
Относительная частота = Частота / Размер выборки

Гистограммы и диаграммы Парето
Гистограмма:
Гистограмма используется для представления частоты или относительной частоты категориальных данных.
Он построен следующим образом:
- На горизонтальной оси укажите метку для каждой категории.
- Нарисуйте прямоугольник (столбцы) одинаковой ширины для каждой категории. Высота каждого прямоугольника представляет частоту каждой категории.
- Убедитесь, что стержни не соприкасаются.

Диаграмма Парето
Диаграмма Парето представляет собой гистограмму, на которой три прямоугольника представлены в порядке убывания слева направо.
Круговые диаграммы
- Круговая диаграмма является распространенным графическим устройством для отображения относительной частоты категориальной переменной.
- Круговая диаграмма представляет собой круг, разделенный на секции, каждая из которых представляет определенную категорию.
- Размер раздела пропорционален относительной частоте категории.

Кросстабуляция
- Кросс-табулирование — это табличный метод одновременного суммирования данных двух категориальных переменных.
- мы можем использовать перекрестную таблицу, чтобы найти закономерности в наборе данных.
Этапы построения перекрестной таблицы
Шаг 1: Поместите категорию одной переменной вверху каждого столбца и категории другой переменной в начале каждой строки.
Шаг 2: Для каждой комбинации строки и столбца введите количество наблюдений, подпадающих под 2 категории.
Шаг 3: В нижней части таблицы указаны итоги по столбцам, а в правой части таблицы — итоги по строкам.
Рассмотрим пример,
В приведенной ниже таблице содержится информация о размере (компактный, средний или большой) и рекомендуемом бензине (обычный или премиум) для выборки из десяти автомобилей 2011 года
a . Постройте перекрестную таблицу переменных размера и бензина.
b. Определите любые закономерности.

Перекрестная таблица приведенной выше таблицы приведена ниже.

Гистограмма кластеризации
- Гистограмма кластеризации полезна при сравнении двух категориальных переменных и часто используется в сочетании с кросс-таблицей.
- Каждый из столбцов на гистограмме кластеризации представляет одну категорию одной переменной по всей категории другой категориальной переменной.
Давайте рассмотрим пример
. Исходный вопрос опроса гласил: «Какую из следующих эмоций вы испытываете сильнее всего в ответ на эти террористические атаки: печаль, страх, гнев?» , неверие, уязвимость?



Это все об этом блоге. Надеюсь, вы, ребята, получили представление о том, что такое графики и таблицы для категорийных данных в статистике. Давайте обсудим больше о графиках и таблицах для числовых данных в следующем блоге.
Не стесняйтесь оставлять комментарии, лайкать и делиться этим блогом.
Спасибо!
Приятного обучения :)