Использованный набор данных

Этот рассказ является продолжением этой статьи.

# Получить рабочий каталог
getwd ()

# Установить рабочий каталог
setwd («C: \\ Users \\ batur \\ Desktop \\ R Tutorial»)

# Прочитать файл данных csv и сохранить как фрейм данных
bankChurnersData = read.csv (file = ”BankChurners.csv”)

Столбцы #Drop имеют номера 22 и 23
df ‹- bankChurnersData [-c (22:23)]

#Encode Attrition_Flag столбец df как фактор - двоичная переменная
df $ Attrition_Flag = factor (df $ Attrition_Flag, levels = c («Атрибутированный клиент», «Существующий клиент»))

#Encode Gender столбец df как фактор - двоичная переменная
df $ Gender = factor (df $ Gender, levels = c («M», «F»))

#Encode Education_Level столбца df как упорядоченного фактора - Порядковая переменная
df $ Education_Level = factor (df $ Education_Level, orders = TRUE, levels = c («Неизвестно», «Необразованный», «Средняя школа», »Колледж »,« Выпускник »,« Аспирантура »,« Докторантура »))

# Кодируйте столбец Marital_Status в df как фактор - Номинальная переменная
df $ Marital_Status = factor (df $ Marital_Status, levels = c («Женат», «Холост», «Неизвестен», «Разведен»))

#Encode Income_Category столбец df как упорядоченный фактор - Порядковая переменная
df $ Income_Category = factor (df $ Income_Category, orders = TRUE, levels = c («Неизвестно», «Менее 40 000 долларов США», «40 000 долларов США - 60 000 долларов США »,« 60 000 долларов США - 80 000 долларов США »,« 80 000 долларов США - 120 000 долларов США »,« 120 000 долларов США + »))

# Кодировать столбец Card_Category в df как упорядоченный коэффициент - Порядковая переменная
df $ Card_Category ‹-factor (df $ Card_Category, orders = TRUE, levels = c (« Синий »,« Серебряный »,« Золотой »,« Платиновый » ”))

# первые 100 строк
df_4 = head (df, 100)

# вторая 100 строка
df_5 = df [seq (101: 200),]

#Check Customer_Age имеет нормальное распределение
qqnorm (df_4 $ Customer_Age)
qqline (df_4 $ Customer_Age)

Результат: согласно приведенной выше форме df_4 $ Customer_Age имеет нормальное распределение, поскольку линия и точки имеют угол почти 45 градусов.

1. Один образец t-теста
Чтобы использовать один образец t-теста, примеры должны иметь нормальное распределение. Из-за этого сначала проверяйте данные, имеют ли они нормальное распределение или нет.

1.1. Тест на нормальность с Шапиро
1. Определите гипотезу
H0: Примеры имеют нормальное распределение.
HA: Примеры не имеют нормального распределения

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Тест на нормальность с Шапиро
shapiro.test (df_4 $ Customer_Age)

данные: df_4 $ Customer_Age
W = 0.99006, p-value = 0.6691

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,6691
Решение: p ›0,05 H0 принято.

5. Интерпретируйте
Примеры имеют нормальное распределение. Благодаря этому можно использовать параметрические тесты.

1.2. t-критерий одного образца
1. Определите гипотезу
H0: μ = 30
HA: μ ≠ 30

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Один образец t-теста
t.test (df_4 $ Customer_Age, mu = 30)

data: df_4 $ Customer_Age
t = 27.918, df = 99, p-value ‹2.2e-16
альтернативная гипотеза: истинное среднее не равно 30
95-процентный доверительный интервал:
48.22554 51.01446
выборочные оценки:
среднее значение x
49.62

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value ‹2.2e-16
решение: p‹ = 0,05 H0 отклонено

5. Интерпретируйте
Среднее значение Customer_Age не 30.

2. Независимый 2-групповой T-тест
Чтобы использовать независимый 2-групповой t-тест, примеры должны иметь нормальное распределение и одинаковые значения дисперсии.

2.1. Проверка нормальности с Шапиро
1. Определите гипотезу
H0: Примеры имеют нормальное распределение.
HA: Примеры не имеют нормального распределения

2. Выберите α (значительный уровень)
α: 0,05

3.Тест статистики
# Тест на нормальность с моделью Шапиро
‹-lm (Возраст_покупателя ~ Пол, данные = df_4)
shapiro.test (остатки (модель))

данные: остатки (модель)
W = 0,99073, p-значение = 0,7236

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,7236
Решение: p ›0,05 H0 принято.

5. Интерпретируйте
Примеры имеют нормальное распределение.

2.2. Однородность дисперсии по Бартлетту
1. Определите гипотезу
H0: Дисперсия в каждой из групп одинакова.
HA: По крайней мере, две из них различаются.

2. Выберите α (значительный уровень)
α: 0,05

3.Статистика теста
# Однородность дисперсии с помощью Бартлетта
bartlett.test (Возраст клиента ~ Пол, данные = df_4)

данные: Возраст клиента по полу
К-квадрат Бартлетта = 0,71698, df = 1, значение p = 0,3971

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,3971
Решение: p ›0,05 H0 принято.

5. Интерпретируйте
Различия в каждой из групп одинаковы.

2.3. Независимый 2-групповой t-тест
1. Определите гипотезу
H0: Средние значения двух независимых групп одинаковы.
HA: Средние значения двух независимых групп различны.

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
t.test (Возраст клиента ~ Пол, данные = df_4)

данные: Возраст клиента по полу
t = -0,28499, df = 51,65, p-значение = 0,7768
альтернативная гипотеза: истинная разница в средних не равна 0
95-процентный доверительный интервал:
-3.677098 2.762652
выборочные оценки:
среднее в группе M среднее в группе F
49.47826 49.93548

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,7768
Решение: p ›0,05 H0 принято.

5. Интерпретируйте
Средние значения двух независимых групп одинаковы.

3. Парный T-тест
Для использования парного T-теста примеры должны иметь нормальное распределение. В дополнение к этому, обычно этот тест следует использовать для тестирования двух связанных групп образцов. Однако в моем наборе данных нет связанных данных для использования парного T-теста. Из-за этого я использую две отдельные части столбца Customer_Age для использования парного T-теста.

3.1. Проверка нормальности с Шапиро
1. Определите гипотезу
H0: Примеры имеют нормальное распределение.
HA: Примеры не имеют нормального распределения

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Тест на нормальность с Шапиро
shapiro.test (df_4 $ Customer_Age)

данные: df_4 $ Customer_Age
W = 0.99006, p-value = 0.6691

# Тест на нормальность с Шапиро
shapiro.test (df_5 $ Customer_Age)

данные: df_5 $ Customer_Age
W = 0.99006, p-value = 0.6691

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,6691
Решение: Для обоих тестов принято p ›0,05 H0.

5. Интерпретируйте
Оба данных имеют нормальное распределение.

3.2. Парный T-тест
1. Определите гипотезу
H0: Средние значения двух связанных групп одинаковы.
HA: Средние значения двух связанных групп различаются.

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
t.test (df_4 $ Customer_Age, df_5 $ Customer_Age, paired = TRUE)

данные: df_4 $ Customer_Age и df_5 $ Customer_Age
t = NaN, df = 99, p-value = NA
альтернативная гипотеза: истинная разница в средних не равна 0
95-процентный доверительный интервал :
NaN NaN
примерные оценки:
среднее значение различий
0

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = NA, среднее значение разницы 0
Решение: H0 принято.

5. Интерпретируйте
Средние значения двух независимых групп одинаковы.

4. Односторонний дисперсионный анализ
Чтобы использовать односторонний дисперсионный анализ, примеры должны иметь нормальное распределение и одинаковые значения дисперсии.

4.1. Проверка нормальности с Шапиро
1. Определите гипотезу
H0: Примеры имеют нормальное распределение.
HA: Примеры не имеют нормального распределения

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Тест на нормальность с Шапиро
model_2 ‹-lm (Возраст_клиента ~ Уровень_образования, данные = df_4)
shapiro.test (остатки (модель_2))

данные: остатки (модель_2)
W = 0,98895, p-значение = 0,5805

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,5805
Решение: p ›0,05 H0 принято.

5. Интерпретируйте
Примеры имеют нормальное распределение.

4.2. Однородность дисперсии по Бартлетту
1. Определите гипотезу
H0: Дисперсия в каждой из групп одинакова.
HA: По крайней мере, две из них различаются.

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Однородность дисперсии с помощью Бартлетта
bartlett.test (Customer_Age ~ Education_Level, data = df_4)

data: Customer_Age by Education_Level
К-квадрат Бартлетта = 5,0845, df = 6, значение p = 0,533

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,533
Решение: p ›0,05 H0 принято.

5. Интерпретируйте
Различия в каждой из групп одинаковы.

4.3. Односторонний дисперсионный анализ
1. Определите гипотезу
H0: Средние значения разных групп одинаковы (как минимум 3 группы)
HA: По крайней мере, одно среднее значение выборки не соответствует равный с остальными.

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Односторонний ANOVA
one_way_anova_result = aov (Customer_Age ~ Education_Level, data = df_4)
summary (one_way_anova_result)

Df Сумма Sq Среднее значение Sq F Pr (›F)
Education_Level 6 689 114,85 2,543 0,0252 *
Остатки 93 4200 45,17
- -
Сигн. коды: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘’ 1

# Тест диапазона
TukeyHSD (one_way_anova_result, conf.level = 0.95)

Fit: aov (formula = Customer_Age ~ Education_Level, data = df_4)
$ Education_Level
diff lwr upr p adj
Uneducated-Unknown -6.519608 -14.1564021 1.117186 0.1464268
High School-Unknown -3,630719 -10,4808753 3,219437 0,6842875
Неизвестный колледж 1,522059 -7,1620993 10,206217 0,9983645
Неизвестный выпускник -1,461049 -7,3957487 4,473650 0,9895000
Выпускник-Неизвестный











Неизвестная степень доктора 3.813725 -5.8044125 13.431864 0.8943682
Средняя школа-без образования 2.888889 -4.6596157 10.437393 0.9093828
Колледж-без образования 8.041667 -1.2033256 17.286659 0.1314214
Окончил -0.282958-без образования -Образование-Без образования 1.166667 -14.3031643 16.636498 0.9999879
Докторантура-Без образования 10.333333 0.2059517 20.460715 0,0423859
Колледж-Средняя школа 5.152778 -3.4538417 13.759397 0.5485500
Высшая школа 2.1.6369670- Аспирантура-Высшая Школа -1,722222 -16,8192314 13,374787 0,9998615
Докторантура-Средняя школа 7,444444 -2,1037426 16,992631 0,2321179
Аспирантура-2,983108 -10,8805706 4,914354 0,9144544
Аспирантура-6,875000 -22,8796 /> Докторантура-Колледж 2.291667 -8.6471557 13.230489 0.9955946
Аспирант-аспирант -3,891892 -18,5961669 10,812383 0,9846652
Докторантура 5,274775 -3,6394774 -14,189027 0,56257175 -3,6394774 -14,189027 0,56257175




0,6371410

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято

Результат одностороннего дисперсионного анализа:
p-значение = 0,0252
p ‹= 0,05 H0 отклонено

Результаты TukeyHSD:
Для Необразованных-Неизвестных: p adj = 0,1464268 решение: p ›0,05 H0 принято. (первая строка)
Для средней школы-неизвестно: p прил = 0,6842875 решение: p ›0,05 H0 принято. (вторая строка)

5. Интерпретировать
Результат одностороннего дисперсионного анализа:
По крайней мере одно среднее значение выборки не равно другим.

Результаты TukeyHSD:
В столбце p-adj представлены решения. Согласно первым двум строкам результата для комбинаций «Необразованный-Неизвестный» и «Средняя школа-Неизвестно», средства разных групп совпадают.

5. Двусторонний дисперсионный анализ
Для использования двустороннего дисперсионного анализа примеры должны иметь нормальное распределение и одинаковые значения дисперсии.

5.1. Проверка нормальности с Шапиро
1. Определите гипотезу
H0: Примеры имеют нормальное распределение.
HA: Примеры не имеют нормального распределения

2. Выберите α (значительный уровень)
α: 0,05

3.Статистика теста
# Тест на нормальность с Шапиро
model_3 ‹-lm (Customer_Age ~ Education_Level, data = df_4)
shapiro.test (остатки (model_3))

данные: остатки (модель_3)
W = 0,98895, p-значение = 0,5805

# Тест на нормальность с Шапиро
model_4 ‹-lm (Возраст клиента ~ Пол, данные = df_4)
shapiro.test (остатки (model_4))

данные: остатки (модель_4)
W = 0,99073, значение p = 0,7236

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,5805, p-value = 0,7236
Решение: для обоих тестов p ›0,05 H0 принимается.

5. Интерпретируйте
Примеры имеют нормальное распределение.

5.2. Однородность дисперсии по Бартлетту
1. Определите гипотезу
H0: Дисперсия в каждой из групп одинакова.
HA: По крайней мере, две из них различаются.

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Однородность дисперсии с помощью Бартлетта
bartlett.test (Customer_Age ~ Education_Level, data = df_4)

data: Customer_Age by Education_Level
К-квадрат Бартлетта = 5,0845, df = 6, значение p = 0,533

# Однородность дисперсии с помощью Bartlett
bartlett.test (Customer_Age ~ Gender, data = df_4)

данные: Возраст клиента по полу
К-квадрат Бартлетта = 0,71698, df = 1, значение p = 0,3971

4. Принять решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято
p-value = 0,533, p-value = 0,3971
Решение: для обоих тестов p ›0,05 H0 принимается.

5. Интерпретируйте
Различия в каждой из групп одинаковы.

5.3. Двусторонний дисперсионный анализ
1. Определите гипотезу
H0–1: Нет разницы в средних значениях первого фактора
H0–2: Нет разницы в средних значениях второй фактор
H0–3: Нет взаимодействия между первым и вторым факторами.

HA-1: Есть разница в средних значениях первого фактора
HA-2: Есть разница в средних значениях второго фактора
HA-3: Существует взаимодействие между первым и вторым факторами

2. Выберите α (значительный уровень)
α: 0,05

3. Статистика теста
# Двусторонний дисперсионный анализ
two_way_anova_result = aov (Возраст_покупателя ~ Пол * Уровень_образования, data = df_4)
сводка (two_way_anova_result)

Df Сумма Sq Средний Sq Значение F Pr (›F)
Пол 1 4 4,47 0,098 0,7549
Уровень образования 6 690 114,96 2,522 0,0268 *
Пол: Уровень образования 5 229 45,82 1,005 0,4197
Остаточные 87 3966 45,59
- -
Signif. коды: 0 ‘***’ 0,001 ‘**’ 0,01 ‘*’ 0,05 ‘.’ 0,1 ‘’ 1

# Тест диапазона
TukeyHSD (two_way_anova_result)

Результат:
Соответствие: aov (формула = Возраст_покупателя ~ Пол * Уровень_образования, данные = df_4)

$ Пол
diff lwr upr p adj
F-M 0,457223 -2,444503 3,358949 0,7548889

$ Education_Level
diff lwr upr p adj
Uneducated-Unknown -6.564434 -14.248577 1.119709 0.1454421
High School-Unknown -3.624742 -10.517370 3.267886 0.6906486

4.Make Решение
p ‹= 0,05 H0 отклонено
p› 0,05 H0 принято

Двусторонний дисперсионный анализ Результат:
HO-1: p-значение = 0,7549 решение: p ›0,05 H0–1 принято
HO-2: p-значение = 0,0268 решение: p‹ = 0,05 H0– 2 отклонено
HO-3: p-value = 0,4197 решение: p ›0,05 H0–3 принято

Результаты TukeyHSD:
Для пола: p прил = 0,7548889 решение: p ›0,05 H0 принято. (первая строка)


5. Интерпретируйте
Результат двустороннего дисперсионного анализа:
H0–1: Нет никакой разницы в средних значениях гендерного фактора
HA-2: Есть разница в средних значениях фактора Education_Level
H0–3: Нет взаимодействия между гендерным фактором и фактором Education_Level

Результаты TukeyHSD:
В столбце p-adj представлены решения. Согласно первой строке результата, для комбинации F-M средние значения групп F и M совпадают.

Следующая статья