Изучение и внедрение машины опорных векторов для классификации типа радужки

Мы собираемся создать модель для классификации типа радужки на основе переменных набора данных.

Во-первых, мы собираемся идентифицировать переменные

Чашелистик

Чашелистик - это часть, которая образует чашечку цветка, обычно выполняет функцию защиты цветка в бутоне и часто служит опорой для лепестков во время цветения.

У нас есть две переменные

  • Длина чашелистика в сантиметрах
  • Ширина чашелистика в сантиметрах

Лепесток

Лепестки – это видоизмененные листья, окружающие репродуктивные части цветов.

У нас есть две переменные

  • Длина лепестка в сантиметрах
  • Ширина лепестка в сантиметрах

Виды цветов

Ирис — род цветковых растений с эффектными цветами, насчитывающий 260–300 видов. Он получил свое название от греческого слова, означающего радугу, ирис.

В наборе данных у нас есть три типа радужки:

  • Ирис Сетоса
  • Ирис разноцветный
  • Ирис Вирджиния

Давайте код

Импорт пакетов

Для этого шаблона мы используем следующие пакеты

Прочитать данные

Мы собираемся прочитать набор данных непосредственно из UCI MACHINE LEARNING REPOSITORY, но у этого набора данных нет имени, тогда сначала мы определим имена наших столбцов, а затем прочитаем набор данных.

И тогда у нас есть

Для этого примера у нас просто есть категориальные столбцы, а затем с помощью pandas мы кодируем столбец

И тогда у нас есть

Теперь мы собираемся проанализировать наши данные

Во-первых, весь набор данных организован одинаково, нет ни одного типа цветов с большим количеством данных, для каждого цветка есть 50 строк, поэтому пытаться подсчитать любое количество будет бесполезно.

Итак, давайте посмотрим на соотношение между столбцами, чтобы увидеть, насколько важен столбец для выбора того или иного типа цветка.

И результат

Для нашего проекта мы должны видеть последний столбец тепловой карты, как мы видим, форма лепестков является наиболее коррелированным столбцом с типом цветка, с меньшей корреляцией находится длина чашелистика, которая также имеет прямую корреляцию и в на последнем месте у нас отрицательная корреляция столбца ширины чашелистика, но это не значит, что он менее важен, он важен, но находится в обратной зависимости от типа цветка.

Таким образом, все столбцы важны для модели, в случае, если мы хотим отказаться от некоторых столбцов, кандидатами будут столбцы чашелистиков с шириной чашелистика на первом месте.

Разделение набора данных

Создание модели SVM

Для этой задачи классификации мы будем использовать классификатор SVM, это по личному выбору, с небольшим набором данных и хорошими параметрами у нас будет точная модель.

И, наконец, для проверки точности модели мы будем использовать матрицу путаницы и перекрестную проверку.

Результаты:

У нас есть точность 98%, что является очень хорошей моделью, и с матрицей путаницы мы видим, что у нас есть только одна неправильно классифицированная информация.

Вывод

Проблема классификации радужной оболочки — хороший проект для прогнозирования класса и оценки столбцов, чтобы проверить его важность для прогнозов.