Надежно ли это? — Классификация — перекрестная проверка и объяснение

В рамках своих предыдущих блогов я занимался анализом наборов данных COVID-19, полученных от Statistics Canada. Я проанализировал наборы данных с помощью различных моделей регрессии и классификации. Чтобы быть более точным, модели были проанализированы путем сравнения различных атрибутов набора данных. Поскольку анализ проводился в текущей ситуации (пандемия COVID-19), результаты исследования были сужены до аспекта прогнозирования состояния пациентов, т. е. целевой переменной была смерть, а прогностическими переменными были различные другие атрибуты набора данных. Предыдущие модели были построены на основе обоснования и прогнозов целевой переменной и больше концентрировались на концепции классификации. Кроме того, этот блог будет основан на идее перекрестной проверки моделей классификации.

Визуализация данных:

Прежде чем мы перейдем к концепции перекрестной проверки, знакомство с набором данных поможет лучше понять концепции.

Как упоминалось в моем предыдущем блоге,

С помощью дерева решений атрибуты переобучения были удалены, чтобы получить точный результат. Чтобы лучше понять, был построен график корреляции, чтобы лучше понять и понять причины выбора возрастной группы, передачи и статуса больницы в качестве предикторов смерти.

Помните, что корреляция не подразумевает причинно-следственной связи, а также означает степень, в которой переменные связаны.

График изображает больничный статус инфицированных людей, классифицированных в соответствии с их возрастной группой; можно сделать вывод, что люди старше возрастной группы 60+ страдают более серьезно, чем молодые поколения, и мой предыдущий блог был посвящен понятию «получают ли люди иммунитет», и этот сюжет частично отвечает на него без какой-либо ссылки к медицинскому контексту. Мы углубимся в это в этом блоге.

Этот конкретный график дает представление о том, как происходило распространение нового вируса, и об основной причине распространения. Это также частично отвечает понятию без какого-либо медицинского контекста, и этот график помогает лучше понять

Перекрестная проверка — брифинг

Как следует из этого термина, перекрестная проверка модели с зарезервированным образцом набора данных для оценки вашей модели на основе ее точности путем вычисления средней ошибки с использованием методов перекрестной проверки. Короче говоря, это метод, используемый для оценки эффективности работы модели.

Сунил Рэй в своем «Улучшите производительность модели с помощью перекрестной проверки» заявил, что метод перекрестной проверки в k-кратном порядке разбивает весь набор данных на k-кратно, а модель строится на k-1 складывать. Затем эффективность модели оценивается в k-й раз. Среднее значение k-записанных ошибок служит для оценки показателя производительности модели. Выбор правильного значения k имеет значение для эффективной оценки модели.

Чем выше значение k, тем ниже смещенный результат, но выше изменчивость.

Чем меньше k, тем больше смещение и меньше дисперсия.

Чем больше k, тем ниже смещение и выше дисперсия.

Согласно Хасти и Тибширани, Одна стандартная ошибка используется при перекрестной проверке, чтобы выбрать наиболее экономную модель, ошибка которой не более чем на одну стандартную ошибку превышает ошибку лучшей модели.

Экономная, самая простая модель, которая может объяснить данные с помощью предположений об аренде и переменных, но с большими объяснительными возможностями.

Классификация ~ перекрестная проверка

Как упоминалось ранее, метод перекрестной проверки используется для оценки того, насколько хорошо работает модель и насколько надежны прогнозы. Что касается этого блога, три модели классификации проходят перекрестную проверку, и каждая из моделей классификации анализируется на основе ее сложности. Частота ошибок перекрестной проверки и точность каждой модели вычисляются для анализа производительности модели. Наконец, для комментариев к моделям используется правило одной стандартной ошибки.

Из полученного набора данных содержатся следующие атрибуты,

Возрастная группа|Пол|Профессия|Регион|Передача инфекции|Статус госпитализации|Бессимптомный статус|Смерть

Точность каждой модели оценивалась на основе ее сложности, и они были классифицированы как сложные, средние и простые.

Смерть ~ каждый другой атрибут (комплекс)

Смерть ~ Передача + Возрастная группа + Статус госпитализации (умеренная)

Смерть ~ Передача + Возрастная группа (Простой)

Для перекрестной проверки используется метод K Fold с K = 10

Древо решений

Модель дерева решений выполняется для каждого из упомянутых выше атрибутовDeath ~каждый другой атрибут

.На графике изображено дерево решений для прогнозирования желаемого атрибута Смерть с использованием остальных атрибутов предиктора, доступных в наборе данных. Поскольку в этой модели он считается комплексом покоя, он предсказывает целевую переменную Смерть с точностью 86,39%, а вычисленная ошибка CV составляет 12,23%.

Это означает, что сложная модель дерева решений ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 86,39 %, а средний показатель перекрестной проверки оценивается в 12,23 %

Смерть – передача инфекции + возрастная группа + статус госпитализации

На графике изображено дерево решений для прогнозирования желаемого атрибута «Смерть» с использованием передачи инфекции, возрастной группы и статуса больницы в качестве предикторов. Он предсказывает целевую смерть с точностью 85,79%, а вычисленная ошибка CV составляет 13,23%.

Это означает, что умеренная модель дерева решений ответит на вопрос: "Будет ли пациент жив или мертв?" с точностью 85,79 %, а средний показатель перекрестной проверки оценивается в 13,23 %.

Смерть ~ передача + возрастная группа

На графике изображено дерево решений для прогнозирования желаемого атрибута «Смерть» с использованием группы «Передача» и «Возраст» в качестве предикторов. Он предсказывает целевую смерть с точностью 84,42%, а ошибка CV вычисляется как 15,39%.

Это означает, что простая модель дерева решений ответит на вопрос: "Будет ли пациент жив или мертв?" с точностью 84,42 %, а средний показатель перекрестной проверки оценивается в 15,39 %.

На приведенном выше графике показана взаимосвязь между средней частотой ошибок для всех трех моделей, и видно, что по мере снижения сложности частота ошибок CV увеличивается.

По приведенному выше графику видно, что точность модели снижается с увеличением сложности. Приведенный выше график рассчитан с использованием принципа правила одной стандартной ошибки, и можно понять, что следующая лучшая модель на одну стандартную ошибку меньше, чем лучшая модель.

Таким образом, сложность модели увеличивается, цель предсказывается с максимальной точностью 86,39 %, а с наименьшей ошибкой перекрестной проверки 12,53 % также можно сделать вывод, что сложные модели предсказывают с большей точностью, чем другие. .

Метод опорных векторов (SVM)

Концепция SVM заключается в том, что он классифицирует набор данных и пытается уместить их на гиперплоскости, которая лучше всего соответствует категории, а модель классификации была проанализирована для набора данных, что обсуждалось в моем предыдущем блоге — Пандемия 2020 — классифицировано.

Смерть ~каждый другой атрибут

Модель SVM предсказала цель «Смерть», используя все другие атрибуты набора данных, с точностью 85,2%, а ошибка CV вычисляется как 14,8%. При сравнении со сложной моделью дерева решений дерево решений предсказывает с большей точностью. и снизить ошибку CV.

Это означает, что сложная модель SVM ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 86,2 %, а средний показатель перекрестной проверки оценивается в 12,82 %

Смерть – передача инфекции + возрастная группа + статус госпитализации

При прогнозировании целевой переменной «Смерть» с использованием передачи, возрастной группы и статуса больницы точность составляет 84,91%, а вычисленная частота ошибок CV составляет 15,09%. Модель SVM работает лучше для сложной модели, чем для умеренной модели.

Это означает, что умеренная модель SVM ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 84,91 %, а средний показатель перекрестной проверки оценивается в 15,09 %

Смерть ~ передача + возрастная группа

Для приведенного выше простого условия обнаружено, что SVM предсказывает целевую переменную «Смерть», используя передачу и возрастную группу в качестве предикторов с точностью 84,91%, а вычисленная частота ошибок CV составляет 15,08%. Нет большой разницы в точности и ошибке CV для моделей Moderate и Simple в SVM.

Это означает, что простая модель SVM ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 84,91 %, а средний показатель перекрестной проверки оценивается в 15,08 %

На приведенном выше графике показана взаимосвязь между сложностью и частотой ошибок, и, как было сказано, по мере уменьшения сложности частота ошибок увеличивается, что делает модель менее надежной. Также можно заметить, что дерево решений вычисляет более низкую частоту ошибок, чем SVM:

Из приведенного выше графика видно, что существует значительный скачок частоты ошибок по мере уменьшения сложности, что составляет 12,82%, как частота ошибок CV (самая низкая). Поведение аналогично любой другой модели, но разница в частоте ошибок для комплекса и остальных значительно выше, чем в других моделях. Таким образом, согласно одному правилу стандартной ошибки, существует следующая лучшая модель со значительным отличием от лучшей.

Таким образом, сложность модели уменьшается, цель прогнозируется с наивысшей точностью 86,2 %, а с ошибкой перекрестной проверки 12,82 % также можно сделать вывод, что сложные модели предсказывают с большей точностью, чем другие, и Модель дерева решений работает лучше, чем SVM для этого конкретного набора данных.

K-ближайший сосед (KNN)

Концептуально KNN, один из широко используемых алгоритмов, который анализирует все доступные случаи и классифицирует новые случаи на основе меры подобия. (Статья), в моем предыдущем блоге — Пандемия 2020 — классифицировано, KNN предсказывала с большей точностью, чем другие модели.

Смерть ~каждый другой атрибут

Модель KNN предсказала цель «Смерть», используя все другие атрибуты набора данных, с точностью 86,92%, а ошибка CV вычисляется как 12,47%. При сравнении этого с деревом решений и сложной моделью SVM KNN прогнозирует с большей точность и меньшая ошибка CV.

Это означает, что комплексная модель KNN ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 86,92%, а средняя перекрестная проверка оценивается в 12,47%. Таким образом, можно сделать вывод, что KNN работает лучше, чем другие, для сложной модели с минимальными различиями в диапазоне от 0,2% до 0,4% для этого конкретного набора данных.

Смерть – передача инфекции + возрастная группа + статус госпитализации

Для вышеуказанного умеренного состояния цель «Смерть» прогнозируется с использованием передачи инфекции, возрастной группы и госпитального статуса в качестве предикторов с точностью 85,51%, а рассчитанная CV-ошибка составляет 13,48%. При сравнении аналогичных условий с другими моделями видно, что KNN работает лучше, чем SVM.

Это означает, что умеренная модель KNN ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 85,51%, а средняя перекрестная проверка оценивается в 13,48%. Таким образом, можно сделать вывод, что KNN работает лучше, чем умеренная модель SVM, но умеренная модель дерева Desicison работает лучше, чем KNN, с небольшой разницей в точности и частоте ошибок для этой конкретной модели.

Смерть ~ передача + возрастная группа

При прогнозировании целевой переменной «Смерть» с использованием группы передачи и возраста точность составляет 83,1%, а вычисленная частота ошибок CV составляет 14,29%. Модель KNN работает лучше для умеренной модели, чем для простой, но сложные модели работают лучше, чем для умеренной.

Это означает, что простая модель KNN ответит на вопрос: «Будет ли пациент жив или мертв?» с точностью 83,1 %, а средний показатель перекрестной проверки оценивается в 14,29 %, что выше, чем у других моделей в KNN.

На приведенном выше графике показана взаимосвязь между средней частотой ошибок для всех трех моделей, и видно, что по мере снижения сложности частота ошибок CV увеличивается, а с другими моделями, принимая во внимание, KNN работает лучше в сравнении.

Из приведенного выше графика видно, что частота ошибок постепенно увеличивается. В случае с SVM произошел огромный скачок, что сделало SVM менее надежной моделью, чем две другие модели. При сравнении с деревом решений видно, что KNN работает лучше. Следовательно, согласно одному правилу стандартной ошибки следующая лучшая модель существует с небольшим отличием от лучшей.

Таким образом, сложность модели увеличивается, цель прогнозируется с максимальной точностью 86,92 %, а с ошибкой перекрестной проверки 12,47 % также можно сделать вывод, что сложные модели предсказывают с большей точностью, чем другие при сравнении и с любой другой моделью. Таким образом, можно сделать вывод, что KNN работает лучше, чем две другие модели.

Вывод

В рамках моего предыдущего блога Пандемия 2020 года — классификация конкретный набор данных был классифицирован с использованием различных моделей, и в этом блоге классифицированные модели прошли перекрестную проверку с использованием метода K-Fold, принимая k = 10.

Согласно заявлению,

Точность лучше для сложных моделей

Дерево решений, SVM и KNN показали хорошие результаты и предсказали лучшую точность и меньшую ошибку CV для сложных моделей. По мере уменьшения сложности точность также снижается, а ошибка CV увеличивается. Таким образом, нет большой разницы между точностью и ошибкой CV в случае умеренной и сложной модели, она все же показывает небольшую разницу, которая действительно имеет значение в реалистичных условиях.

В приведенной выше таблице показано сравнение атрибутов и их производительности в каждой модели, и очевидно, что KNN прогнозирует с наивысшей точностью и наименьшей ошибкой CV, что означает, что их прогнозы надежны для этого конкретного набора данных. Сравнивая две другие модели, дерево решений работает лучше, чем SVM, для конкретных более простых атрибутов точность ниже, чем для сложных и умеренных атрибутов.

Несмотря на сужение атрибутов для сравнения, самая сложная модель предсказывает с большей точностью, но с недостатками переобучения. Во многом это зависит от данных. Два других атрибута были выбраны для рассмотрения в соответствии с деревом решений, чтобы избежать переобучения данных и точно предсказать точность.

Теперь, сравнивая два других атрибута, средний имеет один дополнительный атрибут, чем простой, что делает его немного сложнее, чем простой. В этом случае умеренное предсказание с большей точностью, чем простой атрибут, поэтому понятие сложная модель предсказывает с большей точностью остается верным, несмотря на переоснащение.

Таким образом, можно сделать вывод, что концепция перекрестной проверки помогает анализировать эффективность модели классификации с точки зрения точности и частоты ошибок. Метод K-кратности проще и точнее прогнозирует результат, чем LOOCV и другие методы. Правило целевой стандартной ошибки помогает определить наилучшую из доступных моделей с помощью концепции стандартных отклонений и среднего значения. Приведенные выше прогнозы и результаты соответствуют этому конкретному набору данных.

COVID 19 — классифицировано — перекрестно подтверждено…

#Остаться дома

#Stay_Safe