Анализ настроений с помощью NLTK.

ВСТУПЛЕНИЕ:

Анализ настроений, как следует из названия, связан с эмоциями. I нравится товар покупателю или нет; нравится ли клиенту конкретная услуга или нет. В целом, все дело в мнении клиентов о продукте или услуге.

Теоретически и технически анализ тональности относится к использованию обработки естественного языка, анализа текста, компьютерной лингвистики и биометрии для систематической идентификации, извлечения, количественной оценки и изучения эффективных состояний и субъективной информации. Анализ настроений широко применяется для озвучивания материалов клиентов, таких как обзоры и ответы на опросы, онлайн и социальные сети, а также медицинские материалы для приложений, которые варьируются от маркетинга до обслуживания клиентов и клинической медицины.

Весь процесс data science сводится к пятибалльному принципу «DCOVA». DCOVA Framework помогает вам применять статистику для обобщения и визуализации бизнес-данных, делать выводы на основе этих данных, делать надежные прогнозы деловой активности и принимать решения в бизнесе на основе реальных статистических прогнозов.

D: определение, C: сбор, O: организация, V: визуализация, A: анализ.

Процесс извлечения информации из обзоров, мнений и опросов широко применяется во многих организациях по всему миру. Вот некоторые из задач, для которых он используется:

Насколько хорош фильм?
Как поживает новый продукт?
Каковы будут результаты предстоящих выборов?
Какого мнения придерживаются люди / какую сторону они выберут в актуальном или политическом вопросе?

Когда люди комментируют, просматривают или оставляют отзыв, информация в тексте неоценима. Мы используем эту бесценную информацию и сообщаем, является ли комментарий, отзыв или отзыв положительным или отрицательным.

ПРОЦЕСС:

Подготовка данных - это то место, где вы собираете необходимые данные.
Обработка данных - это то, где вы удаляете шумы и игнорируемые слова. в основном вы очищаете данные на этом этапе.
Визуализация данных - это то, где вы визуализируете данные на основе частоты слов, сходства, кластеризации и многого другого.
Именно сейчас мы строим модель и прогнозируем настроения на основе данных, то есть для принятия расчетных решений.

Пожалуйста, обратитесь к моей предстоящей статье о том, как извлекать данные из PDF-файлов и изображений.

Как и в машинном обучении, даже анализ настроений учитывает и неконтролируемое обучение.

Контролируемое обучение - это когда у нас есть обучающий корпус из нескольких предложений, уже помеченных как положительные или отрицательные. Мы будем обучать нашу модель на основе размеченных данных.
Обучение без учителя - это когда у нас нет данных, помеченных как положительные или отрицательные, вместо этого мы группируем данные в кластеры; Положительный, отрицательный и нейтральный.

Без данных вы просто еще один человек, у которого есть мнение

Давайте сначала построим неконтролируемую модель.

Для этого упражнения я использую набор данных по отзывам реальных клиентов на Hotstar.

ОПИСАНИЕ ДАННЫХ:

UserName: имя клиента.

Created_Date: дата публикации обзора.

Обзоры: обзоры, оставленные пользователями.

Sentiment_Manual: ручная маркировка отзывов как положительных или отрицательных.

Источник данных: источник обзора.

Год / месяц / число: название столбцов описывает это.

Давайте сначала построим неконтролируемую модель.

Для этого мы собираемся импортировать пакет под названием SentimentIntensityAnalyzer из nltk.sentiment.vader, где vader означает Valence Aware Dictionary и sEntiment Reasoner. Это инструмент анализа настроений на основе лексики и правил, специально адаптированный к настроениям. VADER использует комбинацию лексики тональности, списка лексических характеристик (например, слов), которые обычно помечаются в соответствии с их семантической ориентацией как положительные или отрицательные. VADER не только рассказывает о показателях положительности и отрицательности, но также рассказывает нам о том, насколько положительными или отрицательными являются настроения.

Затем мы определили две функции: get_sentiment_score, где мы получаем оценку тональности, используя так называемые оценки полярности; а другая функция - get_sentiment, где мы группируем положительные, отрицательные и нейтральные отзывы, а затем строим их.

Теперь давайте построим модель обучения с учителем на тех же данных.

Итак, сначала нам нужно очистить данные. Мы делаем это, удаляя значения NaN, а затем конвертируя весь текст в нижний регистр. Затем удалите стоп-слова и все языки, кроме английского. Как только мы закончили с этим, мы все готовы построить наш контролируемый анализатор настроений.

Я использовал алгоритм RandomForestClassifier (перейдите по ссылке, связанной со словом RandomForestClassifier, чтобы понять RandomForestClassifier) для построения модели. Перед этим я векторизовал весь текст с помощью векторизатора счетчика, а затем разделил данные на обучающие и тестовые, а затем на X_train, X_test, y_train, y_test.

Итак, вот как вы строите контролируемые и неконтролируемые анализаторы настроений.

Мудрость в науке о данных приходит только в результате неудачных экспериментов.

Надеюсь, вы узнали что-то, читая это, как я узнал, когда писал.

Предстоящие статьи от меня:

Получение информации.
Извлечение текста из файлов pdf и изображений.
Создание вашей первой нейронной сети.
Тематическое моделирование.

Пожалуйста, не стесняйтесь связаться со мной, если у вас есть какие-либо сомнения по этому поводу; либо путем размещения личных заметок к статье, либо по электронной почте [email protected].

Спасибо всем. Хорошего тебе дня!

Анализ настроений с помощью NLTK.

ВСТУПЛЕНИЕ:

ПРОЦЕСС:

Вопросы по теме