Предотвращение группового насилия с помощью анализа твитов

«Некоторые считают, что укрепление школьной безопасности предотвратит насилие, но эта реакционная мера решает только часть проблемы. Вместо этого мы должны выявлять угрозы, снижать риски и защищать детей и персонал до того, как произойдет акт насилия ». - Джениффер Петерс, основатель Voice4Impact

(Включая материалы Ян Гао, Тони Тонева и Арафата Бен Хоссейна)

Чикаго считается самым зараженным бандами городом в Соединенных Штатах с населением более 100 000 активных членов, представляющих почти 60 фракций. Групповые войны и возмездие - обычное дело в Чикаго. В 2020 году в Чикаго наблюдается рост убийств на 43% по сравнению с 2019 годом.

Можем ли мы использовать ИИ, чтобы уменьшить насилие в бандах?

Было замечено, что банды часто используют твиттер для общения с другими членами банды, а также для угроз другим членам банды. Язык банд представляет собой смесь значков и терминов банд.

Можем ли мы построить модель искусственного интеллекта, чтобы понять, о чем говорят банды, и предотвратить их насилие?

Команда разделила работу на две части:

Внедрите алгоритм машинного обучения, чтобы понимать язык банд и обнаруживать угрожающие твиты, связанные с насилием банд.
Найдите взаимосвязь между угрожающими твитами и реальным насилием со стороны банд.

Часть 1: Выявление агрессивных банд и влиятельных членов

Цель состояла в том, чтобы классифицировать твиты как угрожающие и не угрожающие, чтобы угрожающие можно было направить специалистам по вмешательству, которые затем решали, какие действия предпринять.

Шаг 1. Совместная маркировка твитов

Во-первых, был создан инструмент для более быстрой маркировки твитов и обучения модели машинного обучения. Нам предоставили только сырые твиты. Поискав в Интернете, мы нашли LightTag, продукт, предназначенный именно для этого, но это платный продукт, если вы превысите до смешного небольшое количество бесплатных этикеток.

Нам нужно было более простое решение, которое делает все, что нам нужно, и ничего больше. Итак, мы обратились к старому другу, которому доверяют: таблицам Google. Была создана специальная таблица Google (шаблон, общедоступный здесь). В нем есть табло, так что лейблеры получают должное за свой вклад, и механизм, позволяющий, по крайней мере, два человека маркировать каждый твит, чтобы гарантировать качество этикеток.

Чтобы гарантировать качество наших ярлыков, мы решили, что нам нужно как минимум два ярлыка на каждый твит, и если они не совпадают, потребуется третий ярлык, чтобы сломать ничью. Цветовая кодировка строк позволяет легко увидеть, какие строки закончены. Если строка была помечена один раз, она будет окрашена в зеленый цвет. Если строка была помечена дважды и две метки не совпадают, она будет окрашена в красный цвет. Также на странице табло отображается количество твитов, помеченных один раз, дважды помеченных конфликтующими метками и завершенных на каждой странице.

Шаг 2. Анализ настроений (со значением вероятности) твитов, содержащих насилие

Команда анализа настроений построила модель машинного обучения, чтобы предсказать, являются ли твиты опасными или безопасными. Но сначала нам нужно было решить проблемы, связанные с несбалансированным набором данных, когда более 90% потока твитов не представляли угрозы, а также с нехваткой небольшого размера помеченного набора данных. Мы протестировали несколько методов, включая функции потерь, специально разработанные для несбалансированных наборов данных, недостаточную выборку, передачу обучения из существующих алгоритмов встраивания слов и ансамблевые модели. Затем мы объединили резервуар агрессивных сигнальных слов, чтобы получить значение вероятности (вероятность того, что твит более склонен к использованию агрессивных слов) для каждого твита.

Шаг 3. Найдите влиятельных участников в сети Twitter-банд.

Затем мы хотели определить влиятельных членов сети. Сетевой анализ привел к построению ориентированного графа, и с помощью алгоритма Гирвана Ньюманна также можно было обнаружить сообщества в сетях. Используя значения PageRank каждого узла, были определены влиятельные участники.

5 шагов к эффективному сетевому анализу твитов

Используя python networkX, был создан график с использованием упоминаний и авторов твитов.

Узлы представляют собой упоминания в твите / автора твита. Край A → B означает, что B был упомянут в твите, опубликованном A.

2. Тысячи твитов были использованы для создания ориентированного графа, а с помощью алгоритма Гирвана Ньюманна были обнаружены сообщества в сетях. Кроме того, используя значения PageRank каждого узла, можно определить влиятельных членов сети. Это значение не критично для сетевого анализа, но может быть полезно, если кто-то пытается отследить любого члена банды, который имеет влияние в сети.

3. Члены сообществ являются либо авторами, либо упоминаниями. Таким образом, твиты были помечены номером сообщества на основе упоминания или имени автора.

4. Было подсчитано общее количество сигнальных слов во всех сообществах, а также общее количество сигнальных слов для отдельных сообществ.

5. Конечным результатом был набор данных твитов с тегом сообщества и вероятностью использования агрессивных слов, основанный на использовании сигнальных слов в сообществе по отношению ко всем сообществам. Например, на картинке ниже участники Сообщества 1, которые являются авторами или упоминаются в твитах, с большей вероятностью будут склонны использовать агрессивные ключевые слова. Таким образом, твиты, содержащие авторов / упоминания из этого сообщества, являются более агрессивными по контексту.

Кроме того, сетевой анализ может дать представление о том, какие члены более влиятельны в сообществе. Можно получить представление, посмотрев на значения PageRank членов сообщества. Чем выше PageRank, тем более влиятельный участник.

Часть 2: взаимосвязь между фактическим насилием и твитами

Затем мы хотели понять, есть ли какая-либо взаимосвязь между фактическими преступлениями и упоминанием «Gun» в угрожающем твите.

Ниже приведена корреляция между двумя показателями в один и тот же день, однодневную и двухдневную смену.

Благодаря этому анализу мы можем увидеть, что существует корреляция между количеством преступлений и использованием оружия в угрожающих твитах с двухдневной сменой. Это может быть очень полезно властям для предотвращения насилия со стороны банд.

Омдена

Этот проект был реализован с помощью Omdena - инновационной платформы для создания решений искусственного интеллекта для реальных проблем с помощью возможностей сотрудничества снизу вверх.

Я хотел бы поблагодарить Дженнифер Питерс, Фила Эндрю и Джима Коннора за их советы экспертов.

Вот сотрудники, которые активно участвовали в этом проекте (в алфавитном порядке):

Александр Ласкорунский, Арафат Бин Хосейн, Арвин Фебриян, Эрум, Эмиль Бондзи-Артур, Хитеш Гаутам, Коэна Моньяи, Офенце Райс, Рафаэль Эчеверриа, Рамон Онтиверос, Сактисри Венкатесан, Самир Шериф, Кенгевим Йинг, Тони Тони Тони , Сай Правин, Ян Гао