Введение

Людей всегда интересовало, что думают конкретные люди или группы людей или каково их мнение. С момента появления Интернета все большее число людей используют онлайновые веб-сайты и службы для выражения своего мнения. С сайтами социальных сетей, такими как Facebook, LinkedIn и Twitter, становится возможным автоматизировать и оценивать общественное мнение по заданной теме, новости, продукту или бренду.

Мнения, получаемые из таких сервисов, могут быть ценными, а собранные наборы данных можно анализировать и представлять таким образом, чтобы было легко определить, является ли онлайн-настроение позитивным или негативным. Это позволяет отдельным лицам или компаниям быть активными, а не реагирующими, когда возникает негативная цепочка разговоров. В качестве альтернативы можно выявить положительные настроения, что позволит определить сторонников продукта или увидеть, какие части бизнес-стратегии работают.

Объем данных мнений, доступных в Интернете, огромен по сравнению с традиционным анализом мнений, таким как, например, бумажные анкеты и опросы. Достаточно взглянуть на следующую статистику (взято отсюда)

Каждую минуту:

  • Пользователи Facebook делятся почти 2,5 миллионами единиц контента.
  • Пользователи Twitter пишут почти 300 000 раз.
  • Пользователи Instagram публикуют почти 220 000 новых фотографий.
  • Пользователи YouTube загружают 72 часа нового видеоконтента.
  • Пользователи Apple загружают около 50 000 приложений.
  • Пользователи электронной почты отправляют более 200 миллионов сообщений.
  • Amazon зарабатывает более 80 000 долларов на онлайн-продажах.

Сделать «понимание шума» может быть несколько сложно, однако можно применять вычислительные методы для автоматического извлечения данных, анализа и классификации этих мнений. Этот метод известен как Анализ чувствсентиментов, который является ответвлением машинного обучения.

Проблемы анализа настроений

Анализ настроений не обходится без проблем. Например, онлайн-данные мнений часто публикуются с использованием естественного языка, который неструктурирован по своему формату, что означает, что их может быть трудно классифицировать. На самом деле это проблема, с которой чаще всего сталкиваются при анализе настроений. Интерпретация настроения субъекта может варьироваться от одного человека к другому; проблема усугубляется форматом, в котором предмет может быть проанализирован. Эти проблемы в сочетании с некоторыми нюансами английского языка могут затруднить обработку определенных текстов.

В статье, написанной Бин Лю, обсуждается, как выполнение анализа настроений является многогранной проблемой, и подробно рассматриваются некоторые из текущих проблем. Дополнительную информацию о таких вещах можно найти в Интернете. погуглив, но достаточно проблем и некоторых методов, которые могут быть реализованы для реализации анализа настроений.

Методы анализа настроений

Существует множество способов реализации анализа тональности, в конечном счете, это проблема классификации текстов, которую можно разбить на две основные области: (Carstens, 2011)

  • Контролируемое обучение
  • Неконтролируемое обучение

Контролируемое обучение

Этот метод включает в себя построение «классификатора», и проблема интенсивно изучается. Классификатор отвечает за категоризацию текстов на положительную, отрицательную или нейтральную полярность.

Три основных метода классификации:

  • Наивный байесовский
  • Максимальная энтропия
  • Методы опорных векторов (SVM)

Из вышеизложенного SVM обеспечивает наилучшую точность. (Бинг Лю / Панг и др., 2012).

Неконтролируемое обучение

Неконтролируемое обучение состоит из трех этапов: первый заключается в реализации тегов POS (часть речи), затем извлекаются два последовательных слова, чтобы определить, соответствуют ли их теги заданным шаблонам. Второй шаг — оценить ориентацию тональности (SO) извлеченных фраз. Наконец, третий шаг — вычислить среднее SO всех фраз, которые были извлечены с точки зрения положительных или отрицательных результатов.

Наивный байесовский

Наивный байесовский метод — это метод, на котором я собираюсь сосредоточиться в этой серии статей. Он используется как средство для получения прогнозов в свете соответствующих данных. Она также известна как условная вероятность или обратная вероятность. Теорема была открыта английским пресвитерианцем и математиком по имени Томас Байес и опубликована посмертно в 1763 году (Рутледж). Это достаточно легко понять, и в Интернете есть довольно много реализаций. Я предлагаю проверить их.

Я думаю, что на данный момент достаточно, в следующем посте я подробно изложу основную теорию и реализую пример.

Как всегда, если у вас есть какие-либо вопросы, комментарии или предложения, напишите мне сообщение.

Используете ли вы анализ настроений или машинное обучение в каком-либо из своих проектов?