Несколько недель назад я начал проект по анализу аккаунтов политиков в социальных сетях, уделяя особое внимание их последователям и взаимодействию между ними. Сейчас у меня 221 политик из 14 партий и 140 тыс. Сообщений с 1,7 млн ​​комментариев в базе данных, и их количество постоянно растет. На следующей диаграмме показан более подробный обзор имеющихся в настоящее время данных.

Причина, по которой я делаю это, заключается в том, что вся политическая дискуссия в социальных сетях полностью запуталась. Фейковые новости распространяют эпидемии, тролли делают политическую дискуссию в социальных сетях практически невозможной, а мне просто нравится политика, и мне интересно, как люди с иными политическими взглядами взаимодействуют друг с другом в Интернете.

Мой первый анализ, который я провел, был анализ распределения частот по комментариям всех сообщений для каждой стороны, что означает, что следующие графики показывают наиболее часто используемые слова в комментариях по всем сообщениям для каждой стороны. Я собираюсь показать в этом посте только австрийские партии, но это можно применить ко всем странам.

Я не буду углубляться в анализ этих диаграмм, поскольку я не политолог, но мне очень интересно с первого взгляда, что “liebe & kinder появляются только в комментариях SPÖ, а люди, которые комментируют сообщения SPÖ, похоже, не особо заботятся о Европе, поскольку «европа» не входит в число 20 лучших слов. С другой стороны политического спектра мне также очень интересно, что люди, которые комментируют сообщения ÖVP и FPÖ, похоже, очень заботятся о Германии, как о deutschland. 20 лучших и даже 4-е место по комментариям FPÖ, а «Меркель», представляющий канцлера Германии Ангелу Меркель, находится на 9-м месте по комментариям FPÖ. И наконец, что не менее важно, наших либеральных комментаторов, похоже, очень волнует Австрийская радиовещательная корпорация и лицензионные сборы на телевидение (и радио): «orf & gis».

Как вы можете видеть выше, я также начал сегодня с небольшого анализа настроений, основанного на обучающем наборе SentiWS с NLTK и наивным байесовским классификатором. Я обучал и классифицировал комментарии для каждой стороны, и, как вы можете видеть, по всем сторонам только 15% комментариев были классифицированы как положительные, а 85% - как отрицательные.

Весь проект размещен на AWS, код написан на Python, анализ выполняется с помощью NLTK, а данные хранятся в базе данных PostgreSQL. На данный момент я собираю данные только из Facebook и Twitter, поскольку считаю, что это самые важные сети на данный момент, но исходный код для Instagram также будет готов. Как вы можете видеть выше, данные и анализ далеки от завершения, а это означает, что мне нужна поддержка. В настоящее время я подумываю о том, чтобы открыть исходный код для всего проекта, и у меня также есть много идей о том, как мы можем сделать эти данные доступными, чтобы каждый мог получить от них пользу.

Если вы думаете, что можете внести свой вклад в этот проект, потому что у вас есть опыт работы в политике / статистике и вы можете разбираться в этих данных, имеете опыт работы в IT / математике и хотите помочь мне получить больше данных / сделать его доступным для всех или для вас просто хочу помочь - напиши мне электронное письмо на сайт policy [at] hausruckventures.com.