анализ тональности — это своего рода анализ тональности слов… которые могут быть как предложения, так и документы.
в этой статье я собираюсь обсудить анализ данных предложений как положительных или отрицательных, используя двоичный формат, такой как 0 и 1.
здесь я использую наивную байесовскую классификацию для предсказания предложения как положительного или отрицательного
a=input("enter any sentance:") place=np.array([a]) place_vector=vector.transform(place) print(clf.predict(place_vector))
вывод:
введите любое предложение: это был худший фильм, насколько я знаю
0
В этом векторизаторе TF-IDF для преобразования текста в осмысленные представления
что означает векторизатор TF-IDF
это простая метрика, которая является продуктом частоты термина и обратной частоты документа. TF означает, как часто слово встречается в документе.
Позиция IDF для обратной частоты документов, показывающая, насколько часто слово встречается в документах.
Как математически рассчитывается TF IDF?
1. Подсчитайте частоту термина (TF) в каждом документе. Повторите каждый документ и подсчитайте, как часто появляется каждое слово. …
2. Рассчитайте обратную частоту документов (IDF): log( Возьмите общее количество документов, разделенное на количество документов, содержащих слово). …
3. Рассчитайте TF-IDF: перемножьте TF и IDF вместе.
используя наивную байесовскую классификацию, создайте модель для предсказания положительного или отрицательного слова.
Классификатор основан на теореме Байеса.
Теорема Байеса:
Используя теорему Байеса, мы можем найти вероятность того, что произойдет A при условии, что произошло B. Здесь делается предположение, что предикторы/функции независимы. То есть наличие одного конкретного признака не влияет на другой. Поэтому его называют наивным.
поэтому относительно B мы можем найти вероятность A…
Наивный байесовский анализ:
здесь y — класс переменной, а x — параметры
Типы наивных байесовских классификаторов:
1. Наивный Байес Бернулли:
Биномиальная модель полезна, если ваши векторы признаков являются бинарными, как нули и единицы.
2. Полиномиальный наивный байесовский анализ
Он используется для дискретных подсчетов. … Я использовал полиномиальный наивный байесовский метод, который в основном используется для задачи классификации и дает результат, является ли предложение положительным или отрицательным с точки зрения двоичных значений
круто!!!
3. Гауссовский наивный байесовский алгоритм:
Гауссов: он используется в классификации и предполагает, что признаки следуют нормальному распределению.
для проверки точности модели мы использовали roc_auc_score для проверки точности модели. Значение AUC находится в диапазоне от 0,5 до 1, где 0,5 означает плохой результат. классификатор, а 1 означает отличный классификатор.
Вывод:
Алгоритмы наивного Байеса в основном используются в анализе настроений, здесь я использовал, чтобы предсказать, является ли предложение положительным или отрицательным, классификация имеет свои преимущества, а также реализацию
больше для проекта проверьте мою учетную запись Github https://github.com/vishnu2511,
для этого проекта я использовал для обучения модели наборы данных
БАМ!!!