Наука о данных, лежащая в основе таблицы социальной активности на выборах Мальты

Узнайте, как ИИ может находить закономерности в социальных данных, чтобы интеллектуально извлекать политический контент из социальных сетей и классифицировать сообщения в соответствии с предпочтениями политической партии.

Minely совместно с ICON разработали Табло социальной активности для выборов 2017 года на Мальте. В этом проекте можно увидеть ряд диаграмм, в которых оцениваются настроения двух сторон - PN vs PL.

Большой и разнообразный набор данных используется для определения изменчивых тенденций на этих выборах. Мы добыли - с помощью искусственного интеллекта - почти 2 000 000 лайков в Facebook и почти 30 000 сообщений от 13 новостных издателей. Это позволило нам найти закономерности в социальных данных и извлечь предпочтения в отношении настроений двух крупнейших политических партий Мальты. Этот уникальный подход сочетается с шумовым фильтром, который позволяет нам исключить статьи, которые не носят политического характера и, следовательно, должны быть исключены из нашей выборки.

Мы проанализировали тенденцию PN и PL с точки зрения активных пользователей - пользователей, взаимодействующих с политическими сообщениями с помощью кнопки «Нравится». Данные были проанализированы для 137 603 уникальных пользователей.

И аналогичная диаграмма, показывающая данные по месяцам. Мы ясно видим, как PN привлек пользователей за последние месяцы и как они становятся ближе.

Мы также проанализировали распределение симпатий PN и PL в активности пользователей на крупных локальных порталах.

Наконец, есть список сообщений, опубликованных различными СМИ, и относительный успех публикации на основе взаимодействия с пользователем.

Но как это работает?

Minely применила подход на основе искусственного интеллекта для решения ряда проблем.

(1) Как мы можем грамотно отфильтровать политические сообщения от неполитических сообщений? (2) Как мы можем определить, пользуется ли публикация PN или PL в независимых СМИ?

Шаг 1. Создайте список пользователей, подписчиков PL / PN.

С помощью коннекторов Minely для социальных сетей мы извлекаем всех пользователей, которым понравились сообщения со следующих страниц Facebook за последние 100 дней.

Шаг 2. Не все пользователи одинаковы

Мы присваиваем каждому пользователю балл. Оценка равна количеству лайков, сделанных этим пользователем за последние 100 дней на связанных с PL сообщениях, связанных с PN.

user_score = всего_ лайков

Шаг 3. Оцените каждое сообщение

На этом этапе мы оцениваем каждый пост:

PL_likes = количество лайков от пользователей, связанных с PL.
PL_score = сумма всех оценок пользователей, связанных с PL.
PN_likes = количество лайков от пользователей, связанных с PN.
PN_score = сумма всех оценок пользователей, связанных с PN.

Все оценки нормализованы с учетом среднего PL_score и PN_score для каждого медиа-канала. Более того, мы используем коэффициент, в котором оценка делится на количество лайков.

PL_ratio = normalized_PL_score / PL_likes
PN_ratio = normalized_PN_score / PN_likes

Шаг 4: кластеризация k-средних

На этом этапе мы применяем алгоритм кластеризации k -средний. Алгоритм машинного обучения направлен на разделение n наблюдений (сообщений) на k кластеров (3 кластера), в которых каждое наблюдение принадлежит кластеру с ближайшим средним значением, служащим прототипом. кластера. Кластеры в нашем случае следующие:

Посты, связанные с PL
Посты, связанные с PN
Другое - неполитические или нерелевантные нейтральные политические посты.

Построение алгоритма машинного обучения разработано с использованием платформы Minely - кодирования не требуется. Конструктор визуальных потоков Minely позволяет пользователям легко создавать интеллектуальные приложения.

Ниже представлена визуализация кластеров после удаления сообщений с реакцией менее 25.

Точность

Чтобы проверить точность, мы вручную проанализировали образец набора данных из 500 сообщений. Метод фильтрации шума, то есть фильтрация политических сообщений от неполитических сообщений с помощью кластеризации, дает точность 86,6%. Как только пост классифицируется как политический, классификация PN / PL становится точной 99,8%. Мы исключаем сообщения с менее чем 25 отзывами. Когда количество реакций слишком мало, это влияет на соотношения, что приводит к снижению производительности.

Альтернативные методы

Для этого проекта можно было использовать альтернативные методы. Например, применение обработки естественного языка путем анализа содержания сообщения и комментариев к нему. Это включает в себя чтение настроения путем анализа текста. Поскольку мальтийские инструменты НЛП ограничены, этот вариант был исключен, так как анализ сообщений только на английском языке был невозможен.