Постановка проблемы:
Учитывая историю / статью, и мы должны предсказать и опубликовать ее как новость. Здесь раздел разделен на четыре отдельные категории и помечен следующим образом:
Политика: 0
Технология: 1
Развлечения: 2
Бизнес: 3
ОБУЧЕНИЕ и ТЕСТИРОВАНИЕ данных
Предварительная обработка данных:
Определение стоп-слов
Удаление стоп-слов
Выполнение лемматизации для образования корневых слов для похожих слов
Выполнение векторизации, поскольку модели ML не понимают текстовый язык, поэтому преобразование текста в двоичный формат с использованием векторизации
Обучайте и создавайте модели
выполнение разделения Train-Test на данных
Логистическая регрессия
мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности, используя логистическую регрессию
Случайный лес
мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности, используя Random Forest
SVM (машина опорных векторов)
мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности с использованием модели SVM.
KNN (K ближайших соседей)
мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности с использованием модели KNN.
Из всех вышеперечисленных моделей модель SVM достигла точности 97,2%, поэтому мы рассматриваем эту модель для прогнозирования тестовых данных.
Предполагаемый окончательный результат