Выборы 2020 года в США идут полным ходом, и это был очень критический год для Соединенных Штатов из-за глобальной пандемии, так сильно поразившей страну. Выборы в США происходят каждые четыре года и по-настоящему решают судьбу этой страны. Я работал над Illuminating Project в течение 2 лет, пока учился на магистра в области Data Science в качестве научного сотрудника. Хотя изначально проект зародился в 2014 году во время выборов губернаторов в штатах. За все эти годы проект превратился в центр аналитики выборов в социальных сетях. Это помогает журналистам отслеживать агитационные стратегии кандидатов. Идея этого проекта - Дженнифер Стромер-Галлей, Джефф Хемсли и вся их светящаяся команда. В команду входят социологи, бихевиористы, лингвисты, инженеры по обработке данных и инженеры по машинному обучению.

Что такое подсветка?

Illuminating - это проект компьютерной журналистики, который дает возможность журналистам освещать политические кампании США. Его цель - помочь журналистам, предоставляя удобную, но исчерпывающую сводку содержания и характера коммуникаций кампании в Интернете, которая выходит за рамки подсчета лайков или ретвитов. Illuminating предоставляет интерактивную базу данных, которая позволяет легко и быстро отслеживать, что кандидаты говорят в социальных сетях, через свои бесплатные учетные записи кампании в Facebook и Twitter и их платную рекламу в Facebook и Instagram.

Технология, которая использовалась для питания Освещения (Старая версия)

Поскольку этот проект старый, технология, которая использовалась для освещения, была довольно простой и надежной. Мы использовали для подпитки наших коллекций Twitter и Facebook собственные инструменты с открытым исходным кодом, которые в основном представляют собой сценарии, которые обращаются к API и собирают данные, и несколько других сценариев, которые маркируют данные с помощью SVM (поддержки векторных машин) для классификации контента по различным категориям. и поместите их в наши предыдущие базы данных MySQL. Все эти процессы выполнялись на наших серверах (поверьте, у нас много серверов для сборов, чтобы мы ничего не пропустили). Звучит довольно просто! Но это было не так, потому что мы должны были убедиться, что все наши коллекторы работают круглосуточно и без выходных, и мы не получаем никаких аномальных данных.

Новые технологии, лежащие в основе нового поколения Illuminating 2020

Apache Airflow

Мы работаем над тем, чтобы сделать эту инфраструктуру отказоустойчивой и безупречной. Все это с использованием технологий с открытым исходным кодом, у нас был довольно простой вариант: Apache Airflow. Airflow широко используется в отрасли для создания конвейеров данных и конвейеров машинного обучения, спасибо Airbnb!

На наших серверах развернут Airflow, на которых размещены конвейеры данных и конвейеры машинного обучения полностью на Python (я люблю Python❤). Это полностью автоматизировано и потрясающе. Я познакомился с Airflow во время стажировки в ViacomCBS digital летом 2019 года, и я сразу влюбился в него. Хотя у него крутая кривая обучения, но оно того стоит.

БЕРТ

SVM неплохо справлялась с задачами классификации обработки естественного языка. Тем не менее, нам пришлось повысить уровень нашей игры и попробовать некоторые из самых востребованных алгоритмов в лингвистической области для задачи классификации. Тогда был явный победитель: BERT. Мы использовали предварительно обученную базовую модель BERT (двунаправленные представления кодировщика из трансформаторов) (12-слойные, 768-скрытые, 12-головные, параметры 110M), которая обучена в Википедии и учебниках английского языка, спасибо Google! Мы настраиваем последний слой BERT в соответствии с нашими задачами классификации.

MongoDB

Мы перешли с базы данных SQL MySQL на базу данных NoSQL MongoDB. Почему именно MongoDB? Он имеет большее преимущество из-за его способности обрабатывать обширные неструктурированные данные. Это волшебно быстрее. Люди испытывают реальную производительность MongoDB в основном потому, что она позволяет пользователям выполнять запросы другим способом, более чувствительным к рабочей нагрузке. У нас есть миллионы или, может быть, миллиарды записей в нашей инфраструктуре, охватывающей все выборы с 2014 года, которые включают данные из социальных сетей, таких как Twitter, Facebook и Instagram.

Текущая архитектура и сбор данных

В настоящее время Illuminating 2020 фокусируется на политической рекламе кандидатов в президенты и их категоризации с помощью нашей ранее разработанной кодовой книги. Мы используем Apache Airflow для подпитки наших конвейеров данных, которые собирают данные о потоковой рекламе из API библиотеки объявлений Facebook. База данных обновляется каждые 4 часа новыми метриками и новыми сообщениями и помечается нашими моделями машинного обучения. Эти данные содержат рекламу из Facebook и Instagram для всех кандидатов в президенты с действующими аккаунтами в Facebook и Instagram. Мы извлекаем рекламные объявления и их метаданные с основных страниц кандидатов, а также рекламные объявления, приобретенные кампаниями Трампа и Байдена на других связанных страницах. Мы не размещаем рекламу других организаций, рекламирующих от имени кандидатов, например комитетов политических действий. Мы собираем данные только по кандидатам, которые баллотировались достаточно долго, чтобы их можно было включить в дебаты. API библиотеки объявлений Facebook предоставляет данные о расходах и показах для каждого объявления в диапазонах, включая минимальную и максимальную сумму. Мы автоматизировали практически все, от сбора данных до машинного обучения и выборки данных с помощью Apache Airflow.

В мире воздушного потока конвейеры называются DAG (направленный ациклический график). Каждый конвейер состоит из нескольких задач, которые включают сбор и маркировку данных с помощью наших различных моделей машинного обучения для категорий, вежливости и тем на ходу и отправку всего на наши серверы MongoDB.

Мы в основном поддерживаем все виды метаданных в нашей базе данных, что в основном автоматизирует все в нашем Airflow. Когда мы добавляем дату выпуска в коллекцию информации о кандидате. Он автоматически останавливает сбор этих кандидатов в трубопровод воздушного потока, что означает, что трубопроводы программируются грамотно.

После отправки данных в нашу MongoDB мы подпитываем наше веб-приложение Illuminating оттуда.

Освещение 2020

Illuminating 2020 - это универсальный центр рекламной аналитики для президентской кампании 2020 года, который в настоящее время фокусируется на рекламных стратегиях Байдена / Трампа. Это абсолютная сила! Вы можете получить более подробную информацию о том, какую классификацию мы проводим по объявлениям, здесь.

Я учился в магистратуре Школы информационных исследований при Сиракузском университете и работал над этим грандиозным академическим исследовательским проектом в области инженерии данных и инфраструктуры машинного обучения.

Ознакомьтесь с Illuminating 2020!

Посетить Illuminating можно по адресу https://illuminating.ischool.syr.edu. Проект поддерживается Фондом Джона С. и Джеймса Л. Knight Foundation, Центром цифровой журналистики Колумбийского университета, Центром вычислений и наук о данных и Лабораторией BITS в Школе Информационные исследования в Сиракузском университете . Когда речь идет о рекламной аналитике на выборах 2020 года, это абсолютная сила, и она откроет вам глаза. Голосуйте за лучших в 2020 году, так как это решит будущее страны.

Задавайте вопросы на [myLastName] [myFirstName] на gmail dot com или давайте подключимся к LinkedIn.