ВСТУПЛЕНИЕ:
Анализ настроений, как следует из названия, связан с эмоциями. I нравится товар покупателю или нет; нравится ли клиенту конкретная услуга или нет. В целом, все дело в мнении клиентов о продукте или услуге.
Теоретически и технически анализ тональности относится к использованию обработки естественного языка, анализа текста, компьютерной лингвистики и биометрии для систематической идентификации, извлечения, количественной оценки и изучения эффективных состояний и субъективной информации. Анализ настроений широко применяется для озвучивания материалов клиентов, таких как обзоры и ответы на опросы, онлайн и социальные сети, а также медицинские материалы для приложений, которые варьируются от маркетинга до обслуживания клиентов и клинической медицины.
Весь процесс data science сводится к пятибалльному принципу «DCOVA». DCOVA Framework помогает вам применять статистику для обобщения и визуализации бизнес-данных, делать выводы на основе этих данных, делать надежные прогнозы деловой активности и принимать решения в бизнесе на основе реальных статистических прогнозов.
D: определение, C: сбор, O: организация, V: визуализация, A: анализ.
Процесс извлечения информации из обзоров, мнений и опросов широко применяется во многих организациях по всему миру. Вот некоторые из задач, для которых он используется:
- Насколько хорош фильм?
- Как поживает новый продукт?
- Каковы будут результаты предстоящих выборов?
- Какого мнения придерживаются люди / какую сторону они выберут в актуальном или политическом вопросе?
Когда люди комментируют, просматривают или оставляют отзыв, информация в тексте неоценима. Мы используем эту бесценную информацию и сообщаем, является ли комментарий, отзыв или отзыв положительным или отрицательным.
ПРОЦЕСС:
- Подготовка данных - это то место, где вы собираете необходимые данные.
- Обработка данных - это то, где вы удаляете шумы и игнорируемые слова. в основном вы очищаете данные на этом этапе.
- Визуализация данных - это то, где вы визуализируете данные на основе частоты слов, сходства, кластеризации и многого другого.
- Именно сейчас мы строим модель и прогнозируем настроения на основе данных, то есть для принятия расчетных решений.
Пожалуйста, обратитесь к моей предстоящей статье о том, как извлекать данные из PDF-файлов и изображений.
Как и в машинном обучении, даже анализ настроений учитывает и неконтролируемое обучение.
- Контролируемое обучение - это когда у нас есть обучающий корпус из нескольких предложений, уже помеченных как положительные или отрицательные. Мы будем обучать нашу модель на основе размеченных данных.
- Обучение без учителя - это когда у нас нет данных, помеченных как положительные или отрицательные, вместо этого мы группируем данные в кластеры; Положительный, отрицательный и нейтральный.
Без данных вы просто еще один человек, у которого есть мнение
Давайте сначала построим неконтролируемую модель.
Для этого упражнения я использую набор данных по отзывам реальных клиентов на Hotstar.
ОПИСАНИЕ ДАННЫХ:
UserName: имя клиента.
Created_Date: дата публикации обзора.
Обзоры: обзоры, оставленные пользователями.
Sentiment_Manual: ручная маркировка отзывов как положительных или отрицательных.
Источник данных: источник обзора.
Год / месяц / число: название столбцов описывает это.
Давайте сначала построим неконтролируемую модель.
Для этого мы собираемся импортировать пакет под названием SentimentIntensityAnalyzer из nltk.sentiment.vader, где vader означает Valence Aware Dictionary и sEntiment Reasoner. Это инструмент анализа настроений на основе лексики и правил, специально адаптированный к настроениям. VADER использует комбинацию лексики тональности, списка лексических характеристик (например, слов), которые обычно помечаются в соответствии с их семантической ориентацией как положительные или отрицательные. VADER не только рассказывает о показателях положительности и отрицательности, но также рассказывает нам о том, насколько положительными или отрицательными являются настроения.
Затем мы определили две функции: get_sentiment_score, где мы получаем оценку тональности, используя так называемые оценки полярности; а другая функция - get_sentiment, где мы группируем положительные, отрицательные и нейтральные отзывы, а затем строим их.
Теперь давайте построим модель обучения с учителем на тех же данных.
Итак, сначала нам нужно очистить данные. Мы делаем это, удаляя значения NaN, а затем конвертируя весь текст в нижний регистр. Затем удалите стоп-слова и все языки, кроме английского. Как только мы закончили с этим, мы все готовы построить наш контролируемый анализатор настроений.
Я использовал алгоритм RandomForestClassifier (перейдите по ссылке, связанной со словом RandomForestClassifier, чтобы понять RandomForestClassifier) для построения модели. Перед этим я векторизовал весь текст с помощью векторизатора счетчика, а затем разделил данные на обучающие и тестовые, а затем на X_train, X_test, y_train, y_test.
Итак, вот как вы строите контролируемые и неконтролируемые анализаторы настроений.
Мудрость в науке о данных приходит только в результате неудачных экспериментов.
Надеюсь, вы узнали что-то, читая это, как я узнал, когда писал.
Предстоящие статьи от меня:
- Получение информации.
- Извлечение текста из файлов pdf и изображений.
- Создание вашей первой нейронной сети.
- Тематическое моделирование.
Пожалуйста, не стесняйтесь связаться со мной, если у вас есть какие-либо сомнения по этому поводу; либо путем размещения личных заметок к статье, либо по электронной почте [email protected].
Спасибо всем. Хорошего тебе дня!