Классификатор голосования — это одна из библиотек машинного обучения для прогнозирования контролируемых проблем. Библиотека является частью ансамбля машинного обучения, что означает использование сложных алгоритмов. Сам классификатор голосования определяется как оценщик машинного обучения, который обучает различные базовые модели или оценщики и делает прогнозы на основе агрегирования результатов каждого базового оценщика (Используйте классификатор голосования, чтобы улучшить производительность вашей модели машинного обучения: Satyam Кумар). Классификатор голосования может увеличить количество прогнозов.

Машина может повысить ценность предсказания, потому что оно исходит из других машинных обучений, которые уже высоки, но они не самые лучшие. Комбинация многих высокопроизводительных машинных методов обучения — это способ работы классификатора голосования. Чтобы получить результат, все модели должны «голосовать» за исход, и тогда будет выбрано большинство. Объединение моделей может происходить откуда угодно, если они являются частью классификации машинного обучения. Эту модель можно использовать для задач регрессии, но она называется регрессором голосования, а базовые модели являются частью регрессии машинного обучения.

Набор данных о диабете - это данные о проблеме классификации из медицины. Он содержит состояния здоровья, связанные с симптомами диабета и связанными с ситуацией. Это беременность, глюкоза, артериальное давление, толщина кожи, инсулин, индекс массы тела (ИМТ), генетическая функция диабета и возраст. Основываясь на характеристиках, они были помечены как диабет или нет. Классификация машинного обучения, включая классификатор голосования, играет роль в прогнозировании других людей за пределами набора данных, независимо от того, являются ли они диабетиками или нет.

Данные описывают, что большинство диабетиков находятся на ранних сроках беременности, чем наоборот. Их уровень глюкозы равен 100, в то время как уровень глюкозы у здоровых людей равен 120. Инсулин у диабетиков и здоровых людей одинаков и равен 0. Их ИМТ равен 26, а другая сторона - 34. Их функции родословной диабета имеют диапазон от 1 до 2 баллов, кроме того, у здоровых людей 2 балла.

Как использовать классификатор голосования в наборе данных по диабету?

Многие классификации машинного обучения должны использоваться в качестве предикторов. Их необходимо сравнивать на основе любой метрики, которая нас интересует. Поскольку набор данных о диабете будет касаться любого диабетика, который должен быть диагностирован, чтобы предотвратить смерть от болезни, прогноз сосредоточен на отзыве. Отзыв — это метрика, позволяющая предсказать, удастся ли выявить диабетиков или нет. Более высокий отзыв означает высокое изменение способности модели предотвращать смерть диабетика.

Для этого я выбираю семь алгоритмов: логистическая регрессия, классификатор случайного леса, классификатор дерева решений, классификатор K-соседей, классификатор повышения градиента, классификатор Adaboost, классификатор опорных векторов с разницей между отзывом обучения и отзывом тестирования 57%: 73%, 100%: 64%, 100%: 66%, 66%: 55%, 84%: 71%, 74%: 73%, 64%: 71%. Увидев разницу между результатами обучения и тестирования, вы сможете проверить, насколько стабильны модели. После этого я выбираю третьи лучшие результаты в качестве базовых моделей классификатора голосования: классификатор K-соседей, классификатор случайного леса, классификатор повышения градиента. Наконец, классификатор голосования получил 89% : 71% соответственно.

Алгоритмы используются после того, как я стандартизирую набор данных с помощью надежного скалера. Я выбираю робастный скейлер, чтобы функция или функции с высокими значениями не доминировали при моделировании. Сама модель не будет слишком сильно влиять на одну или часть функций, но все функции вместе будут использовать одни и те же центральные значения. Надежный скалер может обрабатывать любые выбросы, поскольку он использует межквартальный диапазон (IQR) для стандартизации.