К счастью, с такими библиотеками, как Scikit Learn, теперь легко изучать структурированные или неструктурированные данные, используя научные методы, алгоритмы и системы для извлечения знаний.

Здесь мы собираемся обсудить два из самых популярных алгоритмов - Support Vector Machines, сокращенно SVM и Random Forests.

ПОДДЕРЖКА ВЕКТОРНЫХ МАШИН

Машина опорных векторов - это модель обучения с учителем, которую можно использовать как для задач классификации, так и для регрессии. Однако он в основном используется в задачах классификации, когда данные разрежены (легко классифицируются). Мы проводим классификацию, находя гиперплоскость, которая очень хорошо различает эти два класса.

СЛУЧАЙНЫЙ ЛЕС

Случайный лес также является одним из наиболее часто используемых алгоритмов в машинном обучении. Его можно использовать как для задач классификации, так и для регрессии. «Лес», который он строит, представляет собой совокупность деревьев решений, обычно обучаемых методом «мешков». Общая идея метода бэггинга состоит в том, чтобы создать комбинацию обучающих моделей, которая улучшает общий результат. По сути, Случайный лес использует несколько деревьев решений и объединяет их вместе, чтобы получить точный и стабильный прогноз.

В этой статье мы собираемся обсудить SVM VS Случайные леса на примере Набор данных Iris (данные цветов). Здесь мы должны предсказать вид цветка с определенными характеристиками, а именно шириной чашелистика, длиной чашелистика, шириной лепестка и длиной лепестка.

После использования обеих вышеупомянутых моделей я обнаружил, что точность модели с помощью классификатора случайного леса составляет 96%, в то время как для того же набора данных SVM дает точность 97%.

Это связано с тем, что в этом наборе данных данные разрежены и их легко классифицировать, поэтому SVM работает быстрее и обеспечивает лучшие результаты. Однако случайный лес также дает хорошие результаты, но не соответствует SVM для этого конкретного набора данных.

Здесь я построил матрицу рассеяния, чтобы показать точки данных -

Выбор алгоритма зависит от желаемого результата. Хотя обе модели хороши на своем месте, но это очень сильно зависит от качества данных, когда речь идет о производительности алгоритма.