За последнее десятилетие политические кампании все чаще проводятся в социальных сетях, из которых доминируют Twitter и Facebook. Эти две сети также являются мощными платформами для выражения своего мнения избирателями. При этом способность предсказать, является ли данный текст политически предвзятым, и, если да, определить его особенно политическую подоплеку, становится чрезвычайно полезной.

Традиционная классификация текстов - хорошо изученная проблема, особенно в области определения тональности. Многие методы были разработаны на основе классических текстовых функций. Недавно также были разработаны сложные методы, использующие рекуррентные нейронные сети (например, LSTM). В некотором смысле RNN имитируют работу человеческого мозга, поскольку позволяют изучать долгосрочные зависимости, при этом «забывая» менее важные зависимости.

Проблема классификации, которую мы решаем, состоит в том, чтобы выявить в текстах политическую подоплеку президентских выборов 2016 года в США. В этой задаче мы классифицируем сообщения как демократические или республиканские на основе взглядов, выраженных в сообщении. Мы создаем наборы данных для обучения и тестирования, выбирая в Твиттере пользователей, чьи политические взгляды известны как демократические или республиканские. Мы делаем это с помощью списков Twitter, которые представляют собой тематические списки пользователей, составленные вручную другими пользователями платформы социальных сетей. Подробнее о различных наборах данных для обучения и моделях, полученных на основе данных обучения, можно найти на странице открытых данных Klout: https://github.com/klout/opendata.

Фактическая точность классификации сильно зависит от входных данных, особенно от наличия упоминаний Twitter. Набор данных для обучения, который включает только твиты без упоминаний, уступает почти на 20% по точности по сравнению с набором данных, который включает упоминания.

Проблема выявления политической ориентации является сложной, поскольку она сильно зависит от контекста и носит временный характер. Долгосрочный контекст автора твита может повлиять на склонность. Например, сторонник Берни Сандерса может негативно отзываться о Хиллари Клинтон, но при этом склоняться к Демократической партии. Точно так же динамический характер проблемы может проистекать из того факта, что в разное время мнения могут быть высказаны по-разному. Перед первичными выборами большая часть политической «битвы» ведется внутри партии (Хиллари Клинтон против Берни Сандерс, например, Демократ против Демократа), а после первичных выборов битва идет между Хиллари Клинтон и Дональдом Трампом (например, Демократ против республиканцев). Это означает, что обучающие данные за один период времени могут быть неприменимы для задачи прогнозирования в более позднее время.

Если вы хотите узнать, насколько хорошо работает классификация политически мотивированных текстов, ознакомьтесь с нашей демонстрацией.

Более подробную информацию о политических предпочтениях с использованием LSTM можно найти в документе - https://arxiv.org/pdf/1607.02501v2.pdf.

Автор Неманья Спасоевич