Анализ: использование данных для изучения письма членов Конгресса на Reddit

Следующий пост представляет собой более подробную версию анализа моментальных снимков, который был опубликован в Информационном бюллетене Washington Post по технологиям 202 15 июня 2020 года.

После многих лет работы в цифровых сообществах мы снова и снова замечали, как онлайн-язык выходит за пределы наших экранов в реальный мир. Один из таких моментов наступил в конце мая, когда представители Конгресса написали письмо Reddit, в котором выразили свое разочарование после того, как сообщество на Reddit под названием r / The_Donald было помещено в карантин. Действия Reddit последовали за объявлением сайта о том, что сообщество нарушает политику в отношении контента Reddit, и означало, что субреддит r / The_Donald, который в основном состоит из сторонников президента Трампа, будет исключен из результатов на Reddit. домашняя страница и будет исключена из результатов поиска на сайте.

Продолжающийся разговор вокруг r / The_Donald пробудил наше любопытство по поводу типов оскорбительного содержания, фактически присутствующего на сайте, и мы решили копнуть глубже - не только в r / The_Donald, но в субреддиты по обе стороны политического прохода.

Мы начали со сбора данных из либерально настроенных сообществ - r / bidenbro, r / WayOfTheBern, r / bernie, r / YangGang. , п / демократы и п / либерал. Мы назвали эту группу группой А. Затем мы собрали данные из консервативных сообществ, включая r / The_Donald, r / DebateAltRight, r / Republican, r / Conservative . Это была Группа Б.

Напоминаем, что хотя в нашем исследовании действительно рассматриваются группы, входящие в двухпартийную политическую систему Америки, которая склонна к контрасту, данные сами по себе не предназначены для разделения.

Наши данные - это просто данные. Не политика.

Что мы нашли

После сбора до миллиона самых последних сообщений из каждого субреддита в группах A и B, вот снимок наших результатов:

(1) Нормализовано по количеству комментариев субреддита. Поскольку в наших выборках данных собраны разные объемы данных от каждого сообщества, нам необходимо представить концентрацию типов злоупотреблений в виде процента от всех комментариев в этом субреддите, чтобы нормализовать неравномерное распределение данных между субреддитами.

(2) Необработанные подсчеты. Оскорбительный контент влияет на пользователей и сообщества независимо от концентрации в конкретном сообществе. Один оскорбительный комментарий может иметь сильные негативные последствия, даже если он окружен не оскорбительными комментариями.

В целом сообщения, размещенные в сообществах обеих групп, демонстрируют одинаковый уровень жестокого обращения: 3,3% для группы A по сравнению с 3,5% для группы B. Однако конкретные типы оскорбительного поведения различаются между группами.

В группе А (либеральные сообщества) подавляющее большинство - 75% - злоупотреблений, которые мы обнаружили, было связано с нашим общим классификатором «Оскорбление». Группа B (консервативные сообщества) была немного разнообразнее. Группа B содержала в 3 раза больше ненавистнических высказываний, содержащих расистские, сексистские, религиозные, гомофобные или ксенофобные нападения, и в 6 раз больше ненавистнических высказываний, содержащих экстремизм сторонников превосходства белой расы. r / The_Donald содержал в 5,5 раз больше контента, классифицированного как атака идентификации, чем группа A, а r / DebateAltRight содержал в 3,6 раза больше.

Кроме того, мы оценили количество оскорбительного контента, сосредоточенного в небольших пулах учетных записей пользователей между двумя группами. В целом, сообщества, в которых злоупотребления сконцентрированы в небольшом количестве учетных записей пользователей, легче модерировать, поскольку меньшее количество пользователей публикует оскорбительный контент.

В группе A на пользователя, который чаще всего злоупотреблял, приходилось 1,8% от общего числа обнаруженных злоупотреблений в среднем по каждому сообществу. Это почти в 3 раза выше средней концентрации в субреддитах группы B. Это говорит о том, что сообщества группы B имеют большую базу учетных записей пользователей, которые публикуют оскорбительный контент, и, вероятно, потребуют больше усилий для его модерации.

Узнайте больше о наших моделях обнаружения злоупотреблений на sentropy.com.

Приложение: методология сбора данных

Наша цель состояла в том, чтобы создать две выборки данных из Reddit - одну из субреддитов, тесно связанных с либеральными политическими взглядами, и одну из субреддитов, тесно связанных с консервативными политическими взглядами.

Для объективной оценки нам требуется четное количество сообщений от каждой группы. Это означает, что в каждой группе будет примерно одинаковое количество сообщений, но отдельные субреддиты могут быть представлены в каждой группе либо слишком много, либо недостаточно.

Наша методика была следующей:

Получите до 1 миллиона последних сообщений для каждого из следующих сообществ с помощью Pushshift API:
Группа A: r / bidenbro, r / WayOfTheBern, r / bernie, r / YangGang, r / Democrats, r / Liberal
Группа B: r / The_Donald, r / DebateAltRight, r / Republican, r / Консервативный
Удалите все сообщения, в которых поле тела равно [удалено] или [удалено]. После фильтрации осталось 94,3% сообщений группы A и 92,2% сообщений группы B.
Сделайте выборку равного количества сообщений из каждой группы, при необходимости произвольно уменьшив выборку.
Обрабатывайте сообщения через Sentropy Detect API, используя порог достоверности 90% (то есть сообщение было включено в график выше, если какая-либо из моделей классификации Sentropy обнаружила категорию злоупотреблений с достоверностью не менее 90%). Все определения классов основаны на определениях, используемых Sentropy's Detect API.

Анализ: использование данных для изучения письма членов Конгресса на Reddit

Что мы нашли

Приложение: методология сбора данных

Вопросы по теме