Всем привет! Я хочу поделиться об анализе настроений. На этот раз я попытаюсь использовать один мощный пакет на NLTK (Natural Language Toolkit), который представляет собой анализ Вейдера. Прежде чем мы приступим к анализу, давайте посмотрим, зачем нам нужен анализ настроений.

Анализ настроений

Анализ настроений — это процесс с использованием текстовой аналитики для получения различных источников данных из Интернета и различных платформ социальных сетей. Цель анализа настроений — получить некоторое представление о тексте, напр. обзоры, твиты, описание новостей и многое другое.

Каждый божий день интернет переполняется миллионами данных из разных источников. Анализ тональности — очень важный инструмент для связанных целых данных. Это означает, что компании будут эффективно получать множество входных данных от пользователей или потребителей.

Большинство подходов к анализу настроений принимают одну из двух форм: на основе полярности, когда фрагменты текстов классифицируются как положительные или отрицательные, или на основе валентности, когда принимается во внимание интенсивность настроения. Например, слова «хорошо» и «отлично» будут трактоваться одинаково в подходе, основанном на полярности, тогда как «отлично» будет рассматриваться как более положительное, чем «хорошо» в подходе, основанном на валентности.

Анализ настроений — это одна из областей обработки естественного языка (NLP), которая создает систему для распознавания и извлечения мнений в текстовой форме. Когда мы используем анализ настроений, информация, которая ранее была неструктурированной, будет преобразована в более структурированные данные.

После того, как мы узнали об общем анализе настроений, мы переходим к vader. Если вы большие любители звездных войн, Вейдер для вас не новость, то есть Дарт Вейдер. Но мы не говорим об этом. РЖУ НЕ МОГУ.

Анализ Вейдера

VADER (Valence Awareсловарь и sнастроение Reasoner) — это основанный на лексике и правилах инструмент анализа тональности, специально настроенный на настроения, выраженные в социальных сетях. Это полностью открытый исходный код в соответствии с лицензией MIT.

Причина этого в том, что ВЕЙДЕР чувствителен как к Полярности (будь то настроение положительное или отрицательное), так и к Интенсивности (насколько положительным или отрицательным является настроение) эмоций. VADER учитывает это, присваивая слову значение Valence Score.

Разработчики VADER использовали сервис Amazon Mechanical Turk, чтобы получить большую часть своих рейтингов. Полную информацию можно найти на их странице Github.

Результат анализа Вейдера имеет 4 балла: отрицательный, положительный, нейтральный и составной. Составной балл вычисляется путем суммирования оценок валентности каждого слова в лексиконе, корректируется в соответствии с правилами, а затем нормализуется так, чтобы он находился в диапазоне от -1 (самое крайнее отрицательное значение) до +1 (наиболее сильное отрицательное значение). крайне положительный). Это наиболее полезная метрика, если вам нужна единая одномерная мера тональности для данного предложения. Назвать это нормализованным, взвешенным составным баллом будет правильно.

положительное настроение: составной балл ≥ 0,05
нейтральное настроение: составной балл › -0,05 и составной балл ‹ 0,05
отрицательный тон: составной балл ≤ -0,05

VADER использует определенные правила для включения влияния каждого подтекста на воспринимаемую интенсивность настроения в тексте на уровне предложения. Эти правила называются эвристиками. Их 5.

  • Пунктуация

а именно восклицательный знак (!), увеличивает величину интенсивности без изменения семантической направленности. Например: «Товар отличный!!!» является более интенсивным, чем «Продукт отличный».

  • Капитализация

в частности, использование ЗАГЛАВНЫХ БУКВ, чтобы подчеркнуть релевантное тональности слово в присутствии других слов, написанных не с заглавной буквы, увеличивает величину интенсивности тональности, не влияя на семантическую ориентацию. Например: «Продукт ОТЛИЧНЫЙ». передает больше интенсивности, чем «Продукт отличный»

  • Модификаторы степени

(также называемые усилителями, вспомогательными словами или наречиями степени) влияют на интенсивность настроения, увеличивая или уменьшая интенсивность. Например: «Продукт очень хорош». является более интенсивным, чем «Продукт хороший», тогда как «Продукт в некотором роде отличный». снижает интенсивность.

  • Сдвиг полярности из-за соединений

Контрастный союз «но» сигнализирует о смене полярности тональности, при этом тональность текста, следующая за союзом, становится доминирующей. Например: «Товар здесь отличный, но сервис ужасный» вызывает смешанные чувства, причем вторая половина диктует общий рейтинг.

  • Улавливание отрицания полярности

Изучая непрерывную последовательность из 3 элементов, предшествующих лексической функции с тональностями, мы обнаруживаем почти 90% случаев, когда отрицание меняет полярность текста. Например, отрицательным предложением будет «Продукт здесь не так уж и хорош».

Пункт 5 дает понять, что анализ Вейдера был бы отличным моделированием. Потому что модель может обрабатывать предложения с отрицанием, например "Этот продукт неплох". Предложения выглядят как отрицательные слова, потому что в предложениях есть "плохой", но в анализе Вейдера эта проблема решается.

Обзоры мобильных телефонов Amazon

Этот набор данных является результатом утилизации на Amazon, но я этого не делал. Я получил этот набор данных от kaggle. в целом эти данные касаются обзоров продаж мобильных телефонов, и у нас есть много столбцов, чтобы получить некоторую информацию из них. Отзывы от клиентов будут показывать каждую строку с информацией о сотовом телефоне марки. Итак, нам бы дали для более глубокого анализа эти данные. Прежде чем мы перейдем к анализу, давайте напишем код для построения моделирования для анализа настроений.

Теперь у нас есть ярлыки для каждого отзыва! При необходимости вы можете использовать функцию «предварительной обработки текста». Но в вейдере это было бы решено и дало бы более высокую оценку, чтобы дать отзывы, или данные были бы классифицированы как положительные, отрицательные или нейтральные отзывы.

Исследовательский анализ данных

В последнем разделе мы попытаемся проанализировать результат вейдер-анализа. давайте перейдем к EDA для этого набора данных.

У нас в половине обзоров данных преобладает бренд Samsung (50,4%), я предполагаю, что так много пользователей на веб-сайте Amazon покупают бренд Samsung, потому что вы можете написать обзор, когда ваша учетная запись покупает продукт. Из второго графика мы знаем, что первые 2 места в рейтинге занимают бренды Xiamoi и Huawei с средним рейтингом выше 4. Но у них не так много отзывов, когда мы сравниваем эти данные с двумя крупными брендами (выглядит из общего количества обзоров) бренды Samsung и Apple имеют средний рейтинг выше 3. Давайте посмотрим, как отзывы о 5 лучших обзоров (по частым отзывам) для каждого бренда.

Как мы видим на графике, бренд Samsung имеет самые высокие положительные отзывы, чем конкурент, потому что у них огромные отзывы на Amazon. Как правило, у нас есть средний составной балл 0,51 для отрицательного отзыва и 0,68 для положительного отзыва. Это означает, что модель разделена на хорошую маркировку для отрицательных, нейтральных или положительных отзывов.

Заключение

Из этого облака слов мы можем сделать вывод о некоторых интересных обзорах для отрицательных или положительных отзывов. У них есть одно и то же слово в обоих облаках слов: "жизнь батареи" и "экран". Я предполагаю, что эти два слова могут означать отрицательное и положительное. Давайте попробуем, например, в положительных отзывах слово «время работы от батареи» дает нам информацию о том, что время автономной работы этого продукта хорошее, или наоборот в отрицательных отзывах.

Общий анализ Vader хорошо выполнен на этом анализе. Вы можете более глубоко анализировать отзывы, когда у вас есть ярлыки. Эти этикетки также дают нам руководство по разработке, обслуживанию и многим другим действиям для нашего продукта. Я думаю, что «голос потребителя» (я назвал его bahasa suara konsumen, LOL) очень важен, чтобы давать нам обратную связь. Это может быть не просто продукт, а наши услуги, доставка продукта или что-то еще, связанное с удовлетворенностью клиентов.

Это все от меня, я надеюсь, что вы сможете понять этот набор данных. В каждом анализе, который я делаю, по-прежнему много ошибок и недостатков. Этот анализ совсем не идеален, и я не подхожу для таких действий, как развитие бизнеса, менеджер по продукту или повышение осведомленности о продукте. Я думаю, что создать акцию на пару недель с отзывами о вашем продукте будет информация, которая нужна потребителю. Может быть, этот анализ будет одним из ваших ссылок.

Для получения более подробной информации об этих данных, коде и других визуализациях вы можете связаться с моим github, перейдя по этой ссылке https://github.com/Anugrahn. Не стесняйтесь спрашивать, и давайте начнем обсуждать, ребята!

Спасибо, надеюсь, вам понравится, ребята. До встречи в следующих историях. Хорошего дня! :)

Источник :

Источник набора данных: https://www.kaggle.com/grikomsn/amazon-cell-phones-reviews

Благодаря отличному обмену на этом сайте https://blog.quantinsti.com/vader-sentiment/