ИЗБИРАТЕЛЬНЫЕ СВИТЫ - Анализ настроений с использованием алгоритмов машинного обучения

Выборы - это способ, которым люди могут выбрать своего кандидата или свои предпочтения в представительной демократии или других формах правления.

Во время выборов мы обычно видим, что каждый новостной канал пытается спрогнозировать результаты вроде - кто будет следующим президентом? и т. д. Иногда предсказание оказывается верным, а иногда - нет.

Но задумывались ли вы когда-нибудь - как делаются эти прогнозы?

Я уверен, что вы подумали об этом, поэтому позвольте мне помочь вам с этим.

Эти прогнозы основаны на настроениях. Люди любят делиться своим мнением / мыслями в социальных сетях, пытаясь предсказать результаты, написав хорошие отзывы о человеке, которого они уважают / за которым следят. Итак, чтобы предсказать, нужно проанализировать эти настроения. И практически невозможно прочитать и понять эти статьи, комментарии / сообщения в социальных сетях, поскольку они могут быть на разных языках.

Это немного длительный процесс, но не невозможный.

Я попытался провести этот анализ на основе случайного набора данных (сообщения о выборах, 2016 г.), взятого из библиотеки Orange.

Оранжевый?

Orange - это программный пакет для визуального программирования, используемый в этой области. Он широко используется, начиная от машинного обучения, интеллектуального анализа и анализа данных и т. Д. Инструменты Orange (называемые виджетами) относятся к сфере простой визуализации данных и предварительной обработки, эмпирической оценки алгоритмов обучения и прогнозного моделирования. Визуальное программирование реализуется посредством комбинации, в которой рабочие процессы разрабатываются путем связывания пользовательских виджетов.

В то же время опытные пользователи могут использовать Orange в качестве библиотеки Python для управления данными и изменения виджета.

Во-первых, текстовый файл был загружен в модель с помощью Corpus.

Корпус помогает загружать текстовые документы (опционально), помеченные категориями, или изменять сигнал ввода данных в корпус.

Входы

• Данные: входные данные (необязательно)

Выходы

Корпус: Сборник документов.

Затем загруженные данные были просмотрены Corpus Viewer

Поскольку Corpus Viewer помогает отображать содержимое корпуса.

Входы

• Корпус: собрание документов.

Выходы

• Корпус: документы, содержащие запрашиваемое слово.

После этого анализ текста был проведен для 6 444 твитов с помощью инструмента предварительной обработки текста.

Поскольку он помогает разбивать текст на более мелкие единицы (токены), фильтрует их, выполняет выделение корней, лемматизацию и создает n-граммы - маркирует токены метками частей речи. Шаги в анализе применяются последовательно и могут быть включены или выключены.

Входы

• Корпус: собрание документов.

Выходы

Корпус: Предварительно обработанный корпус.

После этого было использовано тематическое моделирование

Тематическое моделирование обнаруживает абстрактные темы в корпусе на основе кластеров слов, найденных в каждом документе, и их соответствующей частоты. Документ обычно содержит несколько тем в разных пропорциях; таким образом, виджет также сообщает о весе темы для каждого документа.

Входы

• Корпус: собрание документов.

Выходы

• Корпус: Корпус с добавленными весами тем.

• Темы: выбранные темы с указанием веса слов.

Все темы: вес токенов по каждой теме.

После этого все данные были отправлены в Облако слов.

Поскольку Облако слов отображает токены в корпусе, их размер указывает на частоту употребления слова в корпусе или среднее количество слов в блоке. Слова в виджете перечислены по их частоте (весу). Это также помогает понять, какие слова использовались людьми.

Входы

• Тема: Выбранная тема.

• Корпус: собрание документов.

Выходы

• Корпус - документы, соответствующие выбору.

• Выбранное слово - выбранное слово, которое можно использовать в качестве запроса в Concordance.

• Количество слов - слова и их вес.

Следующий шаг является наиболее важным, поскольку он помогает понять чувства людей.

Для этого использовался инструмент анализа настроений.

Анализ тональности позволяет прогнозировать тональность каждого документа в корпусе. Он использует модули настроений Лю Ху и Вейдера. Оба они основаны на лексике. Для Лю Ху вы можете выбрать английскую или словенскую версию.

Входы

• Корпус: собрание документов.

Выходы

• Корпус: корпус с информацией о тональности каждого документа.

Затем Corpus Viewer использовался для проверки процента отрицательных и положительных слов в каждом предложении.

После этого данные были отправлены из инструмента анализа настроений в инструмент Выбрать столбец.

Так же, как, выбирая столбцы, мы можем провести глубокий анализ положительных, отрицательных и нейтральных слов.

Для лучшего анализа использовался сборщик данных, который помогает сократить объем данных. Это помогает проводить анализ быстрее и точнее. Данные, выбранные сэмплером, составляют 10% от общих данных (Всего = 6444, Выбрано = 645).

Использование тепловой карты для представления данных

В тепловой карте параметр «Объединить с помощью k-средних» использовался для объединения твитов с одинаковой полярностью в одну строку. Затем кластер по строкам был использован для создания кластерной визуализации, в которой сгруппированы похожие твиты.

Проверка данных с помощью Corpus Viewer.

Профилировщик твитов использовался для получения информации о настроениях с сервера для каждого данного твита (или документа). Виджет отправляет данные на сервер, где модель вычисляет вероятность эмоций и / или оценки. Виджет поддерживает три классификации эмоций, а именно Экмана, Плутчика и профиль состояний настроения (POMS).

Входы

• Корпус: собрание твитов (или других документов).

Выходы

Корпус: корпус с информацией о тональности каждого документа.

Наконец, были использованы две визуализации распространения, чтобы узнать об авторе (политическом деятеле) и эмоциях в твитах.

ЗАКЛЮЧЕНИЕ

Наконец, эмоции можно наблюдать из твитов.

Согласно визуализации данных автора.

Можно заметить, что люди больше писали в Твиттере о Хиллари Клинтон.

И из визуализации данных эмоций.

Можно заметить, что люди оставляют в Твиттере более ужасные комментарии о Хиллари Клинтон.

И можно сказать, что у Дональда Трампа больше шансов на победу на выборах 2016 года (согласно твитам).

Контакты

Если у вас есть какие-либо вопросы или предложения по поводу моей следующей статьи, оставьте комментарий ниже или напишите мне по адресу [email protected].

Если вы хотите быть в курсе моих последних статей и проектов, подписывайтесь на меня на Medium.

Свяжитесь со мной через:

LinkedIn

Instagram

ИЗБИРАТЕЛЬНЫЕ СВИТЫ - Анализ настроений с использованием алгоритмов машинного обучения

Оранжевый?

Контакты

Вопросы по теме