Постановка проблемы:

Учитывая историю / статью, и мы должны предсказать и опубликовать ее как новость. Здесь раздел разделен на четыре отдельные категории и помечен следующим образом:

Политика: 0

Технология: 1

Развлечения: 2

Бизнес: 3

ОБУЧЕНИЕ и ТЕСТИРОВАНИЕ данных

Предварительная обработка данных:

Определение стоп-слов

Удаление стоп-слов

Выполнение лемматизации для образования корневых слов для похожих слов

Выполнение векторизации, поскольку модели ML не понимают текстовый язык, поэтому преобразование текста в двоичный формат с использованием векторизации

Обучайте и создавайте модели

выполнение разделения Train-Test на данных

Логистическая регрессия

мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности, используя логистическую регрессию

Случайный лес

мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности, используя Random Forest

SVM (машина опорных векторов)

мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности с использованием модели SVM.

KNN (K ближайших соседей)

мы можем увидеть отчет о классификации, матрицу путаницы и оценку точности с использованием модели KNN.

Из всех вышеперечисленных моделей модель SVM достигла точности 97,2%, поэтому мы рассматриваем эту модель для прогнозирования тестовых данных.

Предполагаемый окончательный результат