Выборы - это способ, которым люди могут выбрать своего кандидата или свои предпочтения в представительной демократии или других формах правления.
Во время выборов мы обычно видим, что каждый новостной канал пытается спрогнозировать результаты вроде - кто будет следующим президентом? и т. д. Иногда предсказание оказывается верным, а иногда - нет.
Но задумывались ли вы когда-нибудь - как делаются эти прогнозы?
Я уверен, что вы подумали об этом, поэтому позвольте мне помочь вам с этим.
Эти прогнозы основаны на настроениях. Люди любят делиться своим мнением / мыслями в социальных сетях, пытаясь предсказать результаты, написав хорошие отзывы о человеке, которого они уважают / за которым следят. Итак, чтобы предсказать, нужно проанализировать эти настроения. И практически невозможно прочитать и понять эти статьи, комментарии / сообщения в социальных сетях, поскольку они могут быть на разных языках.
Это немного длительный процесс, но не невозможный.
Я попытался провести этот анализ на основе случайного набора данных (сообщения о выборах, 2016 г.), взятого из библиотеки Orange.
Оранжевый?
Orange - это программный пакет для визуального программирования, используемый в этой области. Он широко используется, начиная от машинного обучения, интеллектуального анализа и анализа данных и т. Д. Инструменты Orange (называемые виджетами) относятся к сфере простой визуализации данных и предварительной обработки, эмпирической оценки алгоритмов обучения и прогнозного моделирования. Визуальное программирование реализуется посредством комбинации, в которой рабочие процессы разрабатываются путем связывания пользовательских виджетов.
В то же время опытные пользователи могут использовать Orange в качестве библиотеки Python для управления данными и изменения виджета.
Во-первых, текстовый файл был загружен в модель с помощью Corpus.
Корпус помогает загружать текстовые документы (опционально), помеченные категориями, или изменять сигнал ввода данных в корпус.
Входы
• Данные: входные данные (необязательно)
Выходы
- Корпус: Сборник документов.
Затем загруженные данные были просмотрены Corpus Viewer
Поскольку Corpus Viewer помогает отображать содержимое корпуса.
Входы
• Корпус: собрание документов.
Выходы
• Корпус: документы, содержащие запрашиваемое слово.
После этого анализ текста был проведен для 6 444 твитов с помощью инструмента предварительной обработки текста.
Поскольку он помогает разбивать текст на более мелкие единицы (токены), фильтрует их, выполняет выделение корней, лемматизацию и создает n-граммы - маркирует токены метками частей речи. Шаги в анализе применяются последовательно и могут быть включены или выключены.
Входы
• Корпус: собрание документов.
Выходы
- Корпус: Предварительно обработанный корпус.
После этого было использовано тематическое моделирование
Тематическое моделирование обнаруживает абстрактные темы в корпусе на основе кластеров слов, найденных в каждом документе, и их соответствующей частоты. Документ обычно содержит несколько тем в разных пропорциях; таким образом, виджет также сообщает о весе темы для каждого документа.
Входы
• Корпус: собрание документов.
Выходы
• Корпус: Корпус с добавленными весами тем.
• Темы: выбранные темы с указанием веса слов.
- Все темы: вес токенов по каждой теме.
После этого все данные были отправлены в Облако слов.
Поскольку Облако слов отображает токены в корпусе, их размер указывает на частоту употребления слова в корпусе или среднее количество слов в блоке. Слова в виджете перечислены по их частоте (весу). Это также помогает понять, какие слова использовались людьми.
Входы
• Тема: Выбранная тема.
• Корпус: собрание документов.
Выходы
• Корпус - документы, соответствующие выбору.
• Выбранное слово - выбранное слово, которое можно использовать в качестве запроса в Concordance.
• Количество слов - слова и их вес.
Следующий шаг является наиболее важным, поскольку он помогает понять чувства людей.
Для этого использовался инструмент анализа настроений.
Анализ тональности позволяет прогнозировать тональность каждого документа в корпусе. Он использует модули настроений Лю Ху и Вейдера. Оба они основаны на лексике. Для Лю Ху вы можете выбрать английскую или словенскую версию.
Входы
• Корпус: собрание документов.
Выходы
• Корпус: корпус с информацией о тональности каждого документа.
Затем Corpus Viewer использовался для проверки процента отрицательных и положительных слов в каждом предложении.
После этого данные были отправлены из инструмента анализа настроений в инструмент Выбрать столбец.
Так же, как, выбирая столбцы, мы можем провести глубокий анализ положительных, отрицательных и нейтральных слов.
Для лучшего анализа использовался сборщик данных, который помогает сократить объем данных. Это помогает проводить анализ быстрее и точнее. Данные, выбранные сэмплером, составляют 10% от общих данных (Всего = 6444, Выбрано = 645).
Использование тепловой карты для представления данных
В тепловой карте параметр «Объединить с помощью k-средних» использовался для объединения твитов с одинаковой полярностью в одну строку. Затем кластер по строкам был использован для создания кластерной визуализации, в которой сгруппированы похожие твиты.
Проверка данных с помощью Corpus Viewer.
Профилировщик твитов использовался для получения информации о настроениях с сервера для каждого данного твита (или документа). Виджет отправляет данные на сервер, где модель вычисляет вероятность эмоций и / или оценки. Виджет поддерживает три классификации эмоций, а именно Экмана, Плутчика и профиль состояний настроения (POMS).
Входы
• Корпус: собрание твитов (или других документов).
Выходы
- Корпус: корпус с информацией о тональности каждого документа.
Наконец, были использованы две визуализации распространения, чтобы узнать об авторе (политическом деятеле) и эмоциях в твитах.
ЗАКЛЮЧЕНИЕ
Наконец, эмоции можно наблюдать из твитов.
Согласно визуализации данных автора.
Можно заметить, что люди больше писали в Твиттере о Хиллари Клинтон.
И из визуализации данных эмоций.
Можно заметить, что люди оставляют в Твиттере более ужасные комментарии о Хиллари Клинтон.
И можно сказать, что у Дональда Трампа больше шансов на победу на выборах 2016 года (согласно твитам).
Контакты
Если у вас есть какие-либо вопросы или предложения по поводу моей следующей статьи, оставьте комментарий ниже или напишите мне по адресу [email protected].
Если вы хотите быть в курсе моих последних статей и проектов, подписывайтесь на меня на Medium.
Свяжитесь со мной через: