Сегодня я отмечаю четырехлетнюю годовщину своего блога, который пытается простым языком объяснить ключевые идеи науки о данных и рассказать о том, что продолжает появляться в основных разговорах. В свой трехлетний юбилей я говорил об использовании компьютерного зрения в решении на солнечной энергии для обнаружения вредителей, уничтожающих урожай в странах Африки к югу от Сахары, и предупреждения фермеров до того, как посевы будут заражены. Какое значение имеет год, поскольку сегодня я хочу полностью переключиться на разговор об одной из наиболее распространенных частей обработки естественного языка (НЛП) — анализе настроений.

Анализ настроений улавливает мнения, отношения и эмоции или голос клиента, превращая устный или письменный текст из различных источников в способ, который можно обрабатывать с помощью вычислений. Одна из самых увлекательных проблем, которую пытается решить анализ настроений, — это количественная оценка зачастую субъективной информации (чьих-то чувств). Знание реакции людей можно использовать в самых разных областях: от гуманитарной до маркетинговой.

Согласно Википедии, самая основная задача в анализе тональности — это классификация данного текста. Полярность — это то, насколько документ, предложение или часть предложения является положительным, отрицательным или нейтральным. Помимо базовой полярности, анализ настроений глубже погружается в основные эмоциональные состояния, определяемые , включая гнев, отвращение, страх, счастье, печаль, удивление или нейтральность. В последнее время было проведено много исследований о том, как узнать эмоции по твитам в социальных сетях, поэтому давайте рассмотрим пример Акселя Шульца и др. под названием Методический подход к анализу настроений для обнаружения микросообщений, связанных с кризисом.

Конвейер обработки, описанный Шульцем, является общим для многих задач обработки естественного языка: 1) получить данные, 2) предварительно обработать данные (см. блоги my & 2019), 3) извлечь признаки и 4) классифицировать текст.

Шульц анализирует три набора данных из свободно доступных данных социальных сетей. Первый набор данных представляет собой случайную выборку из 200 твитов с местоположением в Сиэтле, штат Вашингтон, 6 марта 2012 г. Второй набор данных представляет собой случайную выборку из 2000 твитов с местоположением в Сиэтле, штат Вашингтон, 6 марта 2012 г. извлекаются, включая извлечение униграмм слов, маркировка частей речи, извлечение триграмм символов и 4-грамм, извлечение синтаксических признаков и извлечение признаков тональности. Твиты были вручную классифицированы по одной из этих эмоций (гнев, отвращение, страх, счастье, грусть, удивление или нейтральность) девятью добровольцами. Функции были объединены и оценены с использованием моделей Наивного Байеса, Полиномиальной модели Наивного Байеса и машины опорных векторов. Точность классификации аннотаций твитов измерялась между аннотаторами и с использованием моделей машинного обучения с показателями точности, точности и полноты, часто используемыми в науке о данных. Наивысшая точность, достоверность и полнота моделей машинного обучения составила 0,658.

В своих следующих блогах я немного подробнее расскажу об извлечении юниграмм, маркировке частей речи и извлечении триграмм и фурграмм. И не стесняйтесь обращаться с любыми вопросами или идеями. Я хотел бы получить известие от вас, поскольку я продолжаю это блог-путешествие.

Первоначально опубликовано на http://thedatalass.com 20 июня 2019 г.