Глубокое погружение в Twitter последователей двух самых противоречивых политических деятелей Америки с использованием моделирования машинного обучения, энтропийного анализа и визуализации данных

Автор Тиган Джонсон, Осип Сурдутович и Натан Хеджкок

Введение:

На протяжении всего сезона выборов 2020 года Twitter прочно закрепился в качестве места, где американцы могли обрабатывать новости кампании и участвовать в политических дискуссиях. Журналисты, политики и общественность использовали Twitter как индикатор политических тенденций, анализируя твиты, лайки, хэштеги и другие виды активности. В центре этого политического взрыва в Твиттере находятся сами два кандидата в президенты: Дональд Трамп и Джо Байден. В этом проекте мы глубоко погружаемся в число подписчиков Трампа и Байдена в Твиттере. Используя методы визуализации данных, энтропийный анализ и моделирование машинного обучения, мы исследуем поляризацию между подписчиками Трампа и Байдена, предсказываем, за кем, скорее всего, будет следить пользователь Twitter, исходя из учетных записей, на которые они подписаны, и анализируем другие важные тенденции.

Сбор данных:

Чтобы создать инструмент прогнозирования, нам нужно было создать матрицу и целевой массив. Матрица — это набор векторов, расположенных в строках и столбцах. Целевой массив — это соответствующий вектор, указывающий, с каким двоичным кодом выравнивается каждая строка матрицы. Они выглядят примерно так:

В нашем случае 0 и 1 в матрице показывают, подписан ли пользователь (представленный каждой строкой) на одну из наиболее популярных учетных записей последователей Трампа и Байдена. 0 и 1 в нашем целевом массиве представляют, следует ли пользователь за Трампом (1) или за Байденом (0). Каждая строка целевого массива соответствует строке матрицы. После того, как мы создали матрицу пользователей, которые подписаны либо на Трампа, либо на Байдена, мы создали матрицу пользователей, которые подписаны как на Трампа, так и на Байдена. Матрицы и целевой массив упорядочивают наши данные, а также будут использоваться для прогнозирования и различных типов анализа.

Чтобы создать матрицы и целевой массив, нам нужно было собрать данные из Twitter. Нам нужно было найти последователей Трампа и Байдена, а затем узнать, за кем следил каждый из их последователей. Каждая строка матрицы будет представлять конкретного пользователя, который следует либо за Трампом, либо за Байденом, а каждый столбец будет представлять одного из пользователей, за которыми чаще всего следят последователи Трампа и Байдена. Для создания матрицы и целевого массива нам потребовалось МНОГО данных.

Наш первоначальный план сбора данных состоял в том, чтобы использовать Twitter API. Однако, получив от Twitter бесплатную учетную запись для разработчиков, мы вскоре обнаружили, что у API есть серьезные ограничения на количество профилей, которые мы можем получить. К счастью, мы наткнулись на библиотеку Python под названием Twint, которая позволяла нам без ограничений извлекать данные из Twitter.

С помощью Twint мы собрали тысячи подписчиков Трампа и Байдена и сохранили их на наших компьютерах. Чтобы фактически создать матрицу и целевой массив, мы выполнили три шага:

  1. Разделите подписчиков на 3 группы: последователи Трампа, последователи Байдена и люди, которые подписаны на обоих. Сохраните каждую группу на нашем компьютере в виде папки, и в каждой папке список подписчиков каждого пользователя будет сохранен в виде файла csv.
  2. Найдите 60 самых популярных пользователей среди последователей Байдена и Трампа. Объедините списки 60 самых популярных аккаунтов Трампа и Байдена и удалите дубликаты, чтобы создать основной список самых популярных аккаунтов. Используйте этот список для создания столбцов нашей матрицы. В итоге наш список состоял из 102 элементов.
  3. Переберите каждого члена групп и создайте вектор длиной 102 элемента. Каждый столбец представляет одну из наиболее популярных учетных записей. Если пользователь подписан на одну из самых популярных учетных записей, мы вставляем 1 в столбец. Если нет, то вставляем ноль. Это приводит к «вектору последователей» для каждого последователя Трампа и Байдена. После создания каждого вектора-последователя мы объединяем их все для создания матрицы и целевого массива.

После извлечения подписчиков Трампа и Байдена из Твиттера и создания матриц и целевого массива мы готовы использовать инструменты науки о данных для анализа данных.

Визуализация данных:

В итоге мы проанализировали 1381 подписчика Байдена, 1324 подписчика Трампа и 782 пользователя, которые подписаны на обоих. В нашей матрице было 102 столбца для представления каждой из 102 учетных записей, на которые чаще всего подписаны последователи Трампа и Байдена, в результате чего получилась матрица 2705 x 102.

Чтобы более полно понять форму и размер наших данных, мы создали серию графиков и гистограмм. Эти графики не только обеспечивают прочную основу для нашего анализа, но и начинают показывать тенденции в наших данных.

**Примечание. Для ясности мы будем называть 102 аккаунта, на которые чаще всего подписаны сторонники Трампа и Байдена, «аккаунтами столбца». Это связано с тем, что мы используем эти аккаунты в качестве столбцов нашей матрицы.

Ниже приведена гистограмма, показывающая количество подписчиков для каждой из учетных записей столбца. Под более крупной гистограммой есть два увеличенных графика с обоих концов спектра: первая десятка наиболее и наименее популярных учетных записей столбца.

Похоже, что у первых трех учетных записей столбца (Обама, Камала Харрис и президент США) гораздо больше последователей Трампа и Байдена, чем у остальной части группы. У десяти нижних учетных записей матрицы столбцов, по-видимому, около 50 подписчиков Трампа и Байдена каждая. Распределение последователей Трампа и Байдена среди колонок явно смещено вправо. Этот сильный перекос означает, что связи в наших данных аналогичны сети Барабаши-Альберта. Сети Барабаси-Альберта — это сети, в которых «мы должны ожидать, что несколько узлов будут очень сильно связаны, а подавляющее большинство будет иметь меньшую степень, чем в среднем» (Барабаши). Большинство платформ социальных сетей, таких как Twitter, описываются как имеющие сети Барабаси-Альберта из-за относительно небольшого числа людей с большим количеством подписчиков.

Затем мы анализируем общее количество аккаунтов, на которые подписаны три разные группы (последователи Трампа, последователи Байдена и подписчики обоих).

В среднем пользователи, которые подписаны и на Трампа, и на Байдена, подписаны на наибольшее количество аккаунтов столбцов, а пользователи, которые подписаны на Трампа, подписаны наименьшее количество.

Ниже приведена гистограмма, сравнивающая количество подписчиков на пользователя между последователями Трампа и Байдена. Учетные записи столбца на оси X упорядочены по количеству подписчиков Трампа на учетную запись столбца в порядке убывания.

Однако, как упоминалось выше, последователи Байдена в среднем следят за большим количеством людей. Из-за этого несоответствия приведенный выше график ясно показывает, что последователи Байдена следят за большим количеством людей. Чтобы получить более «справедливое» представление о распределении подписчиков, мы нормализовали приведенную выше гистограмму.

Глядя на нормализованное распределение, кажется, что существует примерно обратная зависимость количества подписчиков на учетную запись столбца между подписчиками Трампа и Байдена. На обоих краях разница между последователями Байдена и Трампа для каждой учетной записи огромна. Есть некоторые «всплески Байдена», когда за колонками, за которыми активно следит Трамп, также активно следит Байден. Большинство всплесков коррелируют с аккаунтами, которые, казалось бы, не вызывают споров: NASA, BBC, NY Times, Криштиану Роналду, Джастин Бибер. Однако самый левый и самый большой всплеск представляет счет Обамы. Причина, по которой Обама появляется в десятке самых популярных аккаунтов последователей Трампа, вероятно, связана с тем, что он сам был президентом и занимал одну из самых публичных должностей в Америке. Ясно, что есть еще много последователей Байдена, которые следуют за Обамой.

Ниже слева показан увеличенный вид гистограммы выше. На нем изображены десять самых популярных учетных записей столбцов последователей Трампа в порядке убывания. Гистограмма справа как раз наоборот. На нем в порядке убывания представлены десять самых популярных аккаунтов в столбцах последователей Байдена.

Энтропийный анализ Шеннона:

Что такое энтропия Шеннона (Кумар)?

Энтропия Шеннона — это число от 0 до 1, которое по существу представляет уровень хаоса или неожиданности в любом статистическом наблюдении. Простым примером может быть взять честную монету и выполнить подбрасывание монеты. Поскольку у монеты равные шансы приземлиться с обеих сторон, энтропия каждого подбрасывания будет равна 0,5. Это означает, что если вы всегда ожидаете, что в результате выпадет орел, будет один из двух шансов, что вы будете удивлены результатом, или, другими словами, вы предскажете неправильно в половине случаев.

Общая формула энтропии Шеннона:

H(x) = -i = 1nP(xi)*logP(xi)

H(x) — вектор энтропии, состоящий из отрицательной суммы произведений векторов вероятности и их логарифмов.

Для нашего использования мы будем полагаться на средневзвешенную энтропию* (WAE) каждой из учетных записей столбца, что означает энтропию учетных записей при контроле общего количества подписчиков на учетную запись. WAE счетов представляет однородность каждого разделения. Например, команда с более низким WAE будет иметь тенденцию быть более поляризованной в отношении одного кандидата. Найдя WAE каждой учетной записи, мы сможем выяснить, какие учетные записи являются лучшими индикаторами ориентации на последователей (Трамп против Байдена). Наша команда решила классифицировать WAE ниже 0,90 как значимое значение. Это относительно стандартная точка отсечки при анализе WAE. Ниже показано распределение значений WAE для учетных записей из 102 столбцов.

Команды экспоненциально смещены в сторону WAE, равного 1, а это означает, что большинство учетных записей столбца, как правило, имеют много хаоса (более низкие уровни однородности) среди своих подписчиков. Эти учетные записи не являются хорошим индикатором ориентации пользователя на подписчиков. Однако есть несколько учетных записей с низким значением WAE, самое низкое значение которого ниже 0,7 (KamalaHarris). Это означает, что большинство пользователей, которые следуют за Камалой Харрис, следуют либо за Трампом, либо за Байденом. Поскольку Камала Харрис является вице-президентом Байдена, кажется разумным, что она тесно связана с Байденом.

Проанализировав распределение WAE по учетным записям столбцов, мы нашли учетные записи с десяткой самых высоких и самых низких значений WAE.

Мы наблюдаем, что среди аккаунтов с самым низким WAE есть несколько известных политиков-демократов. Среди них: будущий вице-президент Камала Харрис, Барак Обама и Мишель Обама. Были также преобладающие консервативные политики, такие как Сидней Пауэлл, Лин Вуд и сын Трампа Дональд Трамп-младший. Эти распределения показывают, что известные политики правого или левого толка являются хорошими индикаторами того, кто следует за Трампом или Байденом.

Самые высокие рейтинги WAE составляют новостные каналы, спортивные каналы, комики, National Geographic и официальный аккаунт Twitter. Распределение самых высоких WAE показывает нам учетные записи, которые наименее эффективны в определении того, на кого подписан пользователь (Трамп или Байден). Таблицы с самой высокой энтропией снова можно найти в разделе таблицы.

Ниже представлено дерево разделенной энтропии для всех учетных записей столбцов. Ветка формируется после разделения группы подписчиков по аккаунту с наименьшим WAE.

Это дерево показывает процесс разделения и демонстрирует, у каких команд самый низкий WAE. Начальное разделение происходит в верхней вершине изображения. Аккаунт Камалы Харрис с самым низким значением WAE используется как «разделенный». Пользователи, которые следуют за ней, разделяются на одну группу, а пользователи, которые не следуют, — на другую. Этот процесс продолжается для каждой новой группы, пока в группе не станет менее 5 пользователей. Одно из значений в каждой группе является значением энтропии. Группы с более низкой энтропией содержат более однородных пользователей (т. е. большинство пользователей в группе следуют либо Трампу, либо Байдену).

Моделирование:

Одной из наших основных целей было использовать учетные записи столбца, чтобы предсказать, следует ли пользователь Трампу или Байдену. Для этого мы подгоняем нашу матрицу и целевой массив к модели Бернулли из scikit-learn. Мы выбрали модель Бернулли, потому что это относительно простая модель, которая работает, когда есть только два исхода. В нашем случае нашими возможными результатами были последователь Трампа или последователь Байдена; но не ни то ни другое. Используя нашу матрицу и целевой массив, мы обучили нашу модель примерно 90% нашей группы из 2705 уникальных подписчиков. Остальные 10% уникальных подписчиков использовались для проверки точности модели.

Выше приведены показатели точности, точности, отзыва и F1, полученные при оценке нашей модели как на данных обучения, так и на данных тестирования. Для нашей модели примерно половина точек данных следует за Трампом, а половина точек данных — за Байденом, поэтому классовый дисбаланс практически отсутствует. Из-за этого точность является наиболее эффективным способом анализа наших результатов (а не точность или полнота). Одним из примеров, в котором мы можем захотеть рассмотреть точность или полноту, может быть, если бы наша модель использовалась для телефонного банкинга. Например, если цель состояла в том, чтобы убедить всех возможных сторонников Трампа проголосовать за Байдена, отзыв был бы самым важным, чтобы никто из избирателей Трампа не ускользнул.

Наша модель имеет точность 72% (нижний показатель точности). Насколько это точно? Что ж, поскольку наши данные двоичные (пользователи подписаны либо на Трампа, либо на Байдена), базовая точность составляет 50%. Наша модель на 22% выше базовой. Если бы вы искали в Google, является ли это хорошей точностью, вы не нашли бы четкого ответа. В мире машинного обучения бывают ситуации, когда точность на 2 % выше, чем базовая, является чрезвычайно успешной. Бывают также ситуации, когда точность на 40 % выше базовой линии разочаровывает. В нашем случае мы собрали чуть менее 3000 пользователей и обучили нашу модель, используя учетные записи из 102 столбцов. Поскольку размер наших данных относительно невелик, наши данные, скорее всего, будут иметь более высокую дисперсию. Несмотря на это, наша модель была на 22% точнее базовой точности. Это показывает две вещи: во-первых, наша модель дает надежные результаты даже при небольшом размере выборки. Во-вторых, с большим количеством точек данных и большим количеством пользователей наша модель может делать прогнозы с чрезвычайно высокой точностью.

После создания модели мы подгоняем ее под нашу матрицу, содержащую последователей Трампа и Байдена, чтобы увидеть, есть ли заметные тенденции. Мы построили распределение вероятностей того, что подписчик обоих аккаунтов подпишется на Трампа.

Во-первых, очевидно, что большинство пользователей, следящих и за Трампом, и за Байденом, подписаны на больше аккаунтов, связанных с Байденом. Но что это значит?

Можно сделать вывод, что пользователи на каждом краю распределения представляют людей, которые с гораздо большей вероятностью последуют за Трампом или Байденом. Количество пользователей, которые с большей вероятностью подпишутся на Байдена, значительно превышает количество пользователей, которые с большей вероятностью подпишутся на Трампа. Иными словами, последователи Байдена с гораздо большей вероятностью будут подписываться на аккаунты, связанные с Трампом, чем последователи Трампа — на аккаунты, связанные с Байденом.

По сути, если вы возьмете двух пользователей Twitter (один, который следует за Трампом, и один, который следует за Байденом), более вероятно, что пользователь, следящий за Байденом, будет следить за коррелированными с Трампом учетными записями, чем наоборот. Это указывает на то, что последователи Трампа с меньшей вероятностью будут подписываться на аккаунты с иной политической ориентацией, чем на их собственные.

Улучшения точности:

Хотя наша модель уже довольно точна, она может быть еще более точной. Если мы включим только пользователей, следящих за минимальным количеством учетных записей столбцов, точность нашей модели значительно улучшится.

Поскольку мы используем только учетные записи, на которые подписаны пользователи, чтобы делать прогнозы, трудно точно предсказать, за кем пользователь с большей вероятностью будет следить на индивидуальном уровне. Например, возможно, что один конкретный пользователь не подписан ни на одну из 102 основных учетных записей столбцов, которые мы используем для прогнозирования. Если бы это было так, наша модель не смогла бы ничего предсказать об этом конкретном пользователе. Пример приведен ниже:

Однако есть много пользователей, которые подписаны на значительное количество учетных записей. Мы можем точно предсказать, за кем эти пользователи, скорее всего, подпишутся. Другой пример ниже:

Как видите, наша модель очень точно предсказывает, на кого подписана Камала Харрис, но не может точно предсказать пользователя twitteruser123. Это иллюстрирует тот факт, что на индивидуальном уровне наша модель не точна, если пользователи не подписаны на достаточное количество учетных записей столбцов. Однако на совокупном уровне (объединении всех прогнозов на индивидуальном уровне) точность нашей модели довольно точна (72%). Но поскольку пользователи, которые не подписаны на достаточное количество учетных записей столбцов, включаются в наши сводные прогнозы, это влияет на точность.

Как вы можете видеть ниже, по мере увеличения минимального количества учетных записей столбцов, отслеживаемых каждым пользователем, точность нашей модели также увеличивается. Число в центре каждой полосы — это общее количество пользователей, включенных в модель.

Полоса в крайнем левом углу представляет точность нашей модели, когда мы включаем каждого пользователя, не принимая во внимание, сколько учетных записей столбцов они отслеживают. Вторая полоса слева представляет точность нашей модели, когда мы включаем только пользователей, которые подписаны хотя бы на одну из учетных записей столбца. Каждый последующий бар имеет все более высокие минимальные требования к подписке, а также меньшее общее количество пользователей. Как видите, точность увеличивается по мере увеличения минимального требования следования. Когда мы требуем, чтобы пользователи подписывались как минимум на 30 учетных записей столбцов, наша модель дает точность 99,9%. Однако есть только 42 пользователя, которые подписаны как минимум на 30 учетных записей столбцов. Если бы мы включали только тех пользователей, которые подписались на минимальное количество учетных записей столбцов, наша модель была бы значительно более точной. Однако мы решили включить всех пользователей независимо от количества учетных записей столбцов, на которые они подписаны, чтобы избежать систематических ошибок в наших данных. Возможно, что пользователи, которые следят за Трампом, просто с меньшей вероятностью будут подписываться на другие учетные записи, поэтому при внедрении минимального требования к подписке соотношение последователей Байдена и последователей Трампа станет несбалансированным.

Обсуждение:

В нашем проекте мы смогли изучить и проанализировать многие тенденции и отношения между подписчиками Трампа и Байдена в Твиттере и аккаунтами в колонках. Мы обсуждаем последствия и значение нашего анализа.

Обычные пользователи Твиттера:

Используя нашу модель (точность 72%), мы смогли точно предсказать, кто с большей вероятностью будет подписываться на Трампа или Байдена в Твиттере. Пользователи, которые подписываются на учетные записи столбцов с более низкими показателями WAE, с большей вероятностью подпишутся либо на Трампа, либо на Байдена. Согласно нашему распределению WAE, пользователи, которые подписаны на Камалу Харрис, аккаунт левого толка, с большей вероятностью подпишутся на Байдена, а пользователи, которые подписаны на правый аккаунт Сидни Пауэлл, с большей вероятностью подпишутся на Трампа. Эти учетные записи и люди, управляющие ими, считаются поляризованными из-за их политической ориентации, и, согласно нашему анализу, они являются эффективными индикаторами для определения того, кто с большей вероятностью будет следовать за Трампом или Байденом.

Можем ли мы точно предсказать политическую ориентацию пользователей, основываясь на том, что они с большей вероятностью последуют за Байденом или Трампом? Нет! Интересно выдвигать гипотезы о политической ориентации пользователей, но рамки нашего проекта сосредоточены только на мире Твиттера. На результаты нашего проекта нельзя полагаться вне анализа Twitter. Тем не менее, мы считаем, что результаты нашего проекта требуют дальнейшего изучения и позволяют связать политическую ориентацию пользователей с их активностью в Твиттере. В будущем мы хотели бы увидеть исследования, которые связывают активность в Твиттере с политической ориентацией, уточняя наш прогноз того, за кем пользователь, скорее всего, будет следить в Твиттере.

Популярные учетные записи Twitter (столбцы учетных записей):

Используя наши данные о средневзвешенной энтропии и распределение, а также анализируя наши визуализации данных, мы можем увидеть, какие учетные записи наиболее тесно связаны с учетными записями Байдена и Трампа. Как упоминалось выше, учетные записи Камалы Харрис и Сидни Пауэлл являются отличным индикатором того, следует ли пользователь Трампу или Байдену. Из-за этого мы можем сделать вывод, что аккаунт Камалы Харрис сильно коррелирует с аккаунтом Джо Байдена.

Логично ли экстраполировать корреляции за пределы сферы Твиттера в реальную жизнь? Поскольку Харрис является вице-президентом Байдена, совершенно очевидно, что эти два человека тесно связаны не только в Твиттере, но и в реальной жизни. Однако опасно делать вывод о том, что все счета столбцов с низкими значениями WAE сильно коррелируют с Трампом или Байденом. Например, у Арианы Гранде четвертая самая низкая энтропия, что указывает на то, что ее учетная запись является отличным индикатором того, следует ли пользователь Трампу или Байдену. Политические предпочтения Гранде хорошо задокументированы, и можно с уверенностью предположить, что ее мнение сильно коррелирует с мнением Байдена. Но в реальной жизни маловероятно, что у Арианы Гранде и Джо Байдена хорошие связи. Поэтому тот факт, что многие пользователи Твиттера подписаны на обе учетные записи, не обязательно означает, что люди/организации, управляющие учетными записями, связаны в реальной жизни.

Поляризация:

Означают ли наши данные, что существует высокий уровень поляризации между подписчиками аккаунтов Трампа и Байдена в Твиттере?

Наш энтропийный анализ показывает, что некоторые учетные записи лучше других предсказывают, на кого подписан пользователь (Трамп или Байден). Это говорит о том, что между последователями Байдена и Трампа существуют определенные разногласия по поводу конкретных учетных записей, таких как Камала Харрис или Сидни Пауэлл. Но достаточно ли этого, чтобы сделать вывод, что последователи Трампа и Байдена поляризованы?

Ну да и нет. Мы находим явные доказательства существования групп с особыми интересами среди многих последователей Трампа и Байдена (Камала Харрис или Сидни Пауэлл). Однако мы не можем определить поляризацию между последователями Трампа и Байдена, скорее, мы можем только начать различать поляризационный характер конкретных учетных записей.

Мы можем найти уровни поляризации среди учетных записей столбцов с более низкими WAE, таким образом указывая, какие конкретные учетные записи кажутся наиболее поляризованными между последователями Байдена и Трампа в Твиттере. Такие аккаунты, как Камала Харрис, Сидней Пауэлл и Барак Обама, имеют очень низкий показатель WAE, что свидетельствует об их поляризующем характере.

Наши гистограммы и визуализация данных, наряду с WAE учетных записей столбцов, указывают на большие различия между пропорциями последователей Байдена и Трампа для конкретных учетных записей. Ниже приведена нормализованная гистограмма количества последователей Трампа и Байдена (снова).

Опять же, различия в количестве последователей Трампа и Байдена для конкретных учетных записей очевидны, особенно по краям графика.

Наш энтропийный анализ и визуализация данных дают нам основания полагать, что одни учетные записи более противоречивы по сравнению с другими. Но нужно больше данных, чтобы ответить на вопрос, насколько поляризованы сторонники Трампа и Байдена. И еще больше данных необходимо, чтобы ответить на вопрос, насколько поляризованы последователи Трампа и Байдена в реальной жизни. Наш проект указывает только, какие конкретные аккаунты имеют высокий уровень поляризации.

Почему это важно?

Если вы не нашли собственный ответ на поставленный выше вопрос, вот как мы видим последствия нашего анализа.

Во-первых, наш анализ показывает, что пользователи, которые следят за Трампом, с гораздо меньшей вероятностью подпишутся на аккаунты, не связанные с Трампом, чем пользователи, которые следят за Байденом, подпишутся на аккаунты, не связанные с Байденом. Это указывает на то, что последователи Трампа обычно не ищут информацию с точек зрения, отличных от их собственной. По мере того, как люди взаимодействуют с единомышленниками, их политические взгляды и взгляды становятся более экстремальными, что чревато опасными последствиями для демократии (спорные выборы, тупиковая ситуация в Конгрессе и т. д.) (Кута). Мы надеемся, что наш анализ распространит информацию о распространенности подписок на аккаунты единомышленников.

Во-вторых, наш анализ может дать определенным аккаунтам лучшее представление о типах людей, которые за ними следят. Например, изучив наши данные, BBC поймет, что большинство ее подписчиков — это пользователи, которые следят за аккаунтами, связанными с Байденом.

В-третьих, наш анализ дает Twitter возможность сделать свой продукт еще более привлекательным и предоставить пользователям больше возможностей для создания более крупных сетей. Например, Twitter мог бы помочь пользователям найти больше учетных записей, которые им были бы интересны, рекомендуя учетные записи, связанные с тем, на кого пользователи уже подписаны. Это повысит уровень активности в Твиттере и принесет пользу как Твиттеру, так и его пользователям.

Будущие направления:

Есть улучшения, которые можно внести, чтобы повысить точность нашей модели и, в конечном итоге, усилить наш анализ. Прежде всего, анализ большего набора данных (то есть сбор большего количества подписчиков) даст более точные результаты. Во-вторых, использование в качестве точек данных не только учетных записей, на которые подписаны пользователи, но и использование твитов, лайков, комментариев и других типов активности в Твиттере не только дало бы более точные результаты, но также позволило бы нам получить еще более подробные и нюансированные данные. выводы.

Мы надеемся, что наш проект открывает двери для дальнейших исследований взаимосвязи между активностью человека в Твиттере и его политической ориентацией. Интересно, удастся ли когда-нибудь точно предсказать политическую ориентацию человека, анализируя активность в Твиттере?

Мы также надеемся, что в будущем будет реализовано больше проектов по анализу Twitter, подобных нашему. Мы призываем других использовать наш код для сравнения пользователей Twitter и перехода к другим сферам деятельности.

Репозиторий кода

Если вы вообще заинтересованы в изучении других тенденций, связанных с теми, которые мы обнаружили в нашем проекте, посетите наш репозиторий github!

В репозитории есть файл (youTry.py), который позволяет вам самостоятельно протестировать нашу модель. Введите имя пользователя Twitter и посмотрите, что предсказывает наша модель! (Как упоминалось выше, наша модель может быть неточной на индивидуальном уровне, если пользователь не подписан на достаточное количество учетных записей столбцов!)

Благодарности

Спасибо Lucian Leahu, нашему профессору, который помог нам с направлением нашего проекта и многому научил нас в области больших данных. Большое спасибо создателям и участникам невероятно полезной библиотеки Twint. Как всегда, спасибо StackOverflow и сообществу открытого исходного кода за решение практически любой проблемы. И, наконец, спасибо ВАМ, что читаете о нашем проекте и вдохновляете нас продолжать рассказывать истории с данными!

Цитаты:

[1] Альберт-Ласло Барабаши, Сетевая наука (2013), royalsocietypublishing.org/doi/full/10.1098/rsta.2012.0375

[2] Амит Кумар и Шринивас Пит, Энтропийно-взвешенный метод для определения единственного репрезентативного решения потока пути для статической задачи распределения пользовательского равновесного трафика (2014), www.sciencedirect.com/science /статья/abs/pii/S019126151400191X

[3] Сара Кута, Общение с единомышленниками порождает крайние политические взгляды, исследование CU Boulder показывает (2016 г.), https://www.dailycamera.com/2016/09/30/talking -с-единомышленниками-создает-крайние-политические-взгляды-cu-Boulder-research-находит/