Анализ институциональных моделей (сокрытия) случаев сексуального насилия в тысячах документов, определяющих государственную политику.

Эта статья написана совместно с Alexis Carrillo Ramirez.

Мысли о сексуальном насилии всегда болезненны, особенно когда случаи сексуального насилия затрагивают самых уязвимых людей: детей. К сожалению, данные говорят сами за себя, и я бы сказал это громко: «Каждые 73 секунды американец подвергается сексуальному насилию. И каждые 9 минут этой жертвой становится ребенок. Между тем, только 5 из 1000 преступников окажутся в тюрьме». [1]. Кроме того, потенциальный риск из-за реального воздействия, несомненно, существует: «Каждый год 35 миллионов взрослых вступают в контакт с более чем 70 миллионами детей и подростков через молодежные организации[2].

Кроме того, по мере роста осведомленности о сексуальном насилии и домогательствах в различных типах организаций (случаи, связанные с тренерами, учителями, вожатыми лагерей, священнослужителями), различные заинтересованные стороны требуют новых действий, особенно, когда некоторые из этих организаций пытаются скрыть или покрыть скандалы о сексуальном насилии ради своей «безупречной» репутации среди других факторов, таких как факторы социальной идентичности или даже групповая лояльность/лояльность (например, церковь или образовательные учреждения)[3] .

«Каких действий я должен ожидать от программ по предотвращению сексуального насилия над детьми в своих учреждениях? Должен ли я спрашивать об этом программы, или меня сочтут параноиком?» ~ Родитель подростка [4]

«Честно говоря, я не позволяю своим детям участвовать в спортивных мероприятиях, обычно проводимых под присмотром мужчин, потому что я не хочу проверять незнакомца и открывать возможность сексуального насилия над моими сыновьями со стороны человека, которого я рекомендовал как «заслуживающего доверия». .'» ~ Родитель двоих маленьких детей [4]

В этой ситуации ответ ясен: нам нужны эффективныедействия, чтобы остановить и предотвратить сексуальное насилие и домогательства.

Использование ИИ для измерения эффективности политики

Традиционные подходы включают в себя введение политик для защиты от злоупотреблений. Эти политики обычно включают в себя несколько документов, таких как законодательная политика, кодекс поведения, процедурные документы для обработки и сообщения о нежелательных событиях, постановления, публичные правила и т. д. Кроме того, оказывается, что контекст применимости политики следует сложной иерархии детализации: от международной социальной политики (гендерное неравенство от ООН), федеральной, государственной до более локального уровня (внутри организаций и сообществ).

Таким образом, измерение эффективности политикидалеко от простого процесса, который может включать в себя сбор знаний и понимание различных результатов: как правило, это требует изучения большого количества общедоступных документов и отчетов об инцидентах!

Именно здесь ИИ выглядит многообещающе благодаря автоматизации таких процессов, поддержке процессов принятия решений или даже нахождению скрытых шаблонов, которые просто проверяет человек. не смог добиться.

Итак, что мы сделали?

Работая с Omdena в рамках проекта Ноль жестокого обращения, главная задача заключалась не в выявлении потенциальных хищников, а в выявлении новых моделей сокрытия внутри учреждений. Основная причина заключается в огромном влиянии мер профилактики на макроуровне, а не на микро/индивидуальном уровне.

Извлечение информации из необработанных документов политики.

Выводы и рассуждения на основе высокоструктурированных баз данных или баз данных KB — довольно простой процесс. Однако большая часть общедоступных данных о политике и сексуальных домогательствах представлена ​​в форме естественного человеческого языка: неструктурированного текста.

Как и при решении многих реальных проблем, отсутствие одного идеального набора данных подтолкнуло нас к исследованию и оценке нескольких потенциально разнообразных наборов данных («погружение» из поисковой системы наборов данных Google в Национальный архив данных о жестоком обращении с детьми и безнадзорности (NDACAN)). Этот этап был одним из самых сложных из-за надежности данных.

Как вы можете догадаться прямо сейчас… мы не столкнулись с одним супер-качественным набором данных! Мы изучили несколько наборов данных, пока не выбрали 4 (набор данных об обвиняемом священнике, отчеты об инцидентах из разных учреждений, образовательные отчеты о сексуальных домогательствах и агрегированный набор данных о различных политиках).

Поскольку нашей основной целью было объяснение инцидентов (ответы на вопросы) и поиск скрытых закономерностей, первым шагом было преобразование данных, понятных человеку, в представление знаний, интерпретируемых машиной.

Тестирование различных подходов

Мы решили объединить и поиграть с несколькими подходами (например, количественный анализ и анализ на основе графиков). Независимо от подхода потребовались некоторые задачи предварительной обработки НЛП (см. рис. 1).

Количественный анализ текстовых данных

Это подход из социальных наук. Короче говоря, анализ текста, основанный на неконтролируемых методах обучения с встраиванием мешка слов и некоторыми поворотами. Во-первых, единица анализа меняется с текста на слова. Во-вторых, функции определяются в соответствии с интересующим объектом. Этот подход направлен на определение стиля письма на основе частоты употребления слов.

Во время предварительной обработки корпус преобразуется в матрицу терминов-частот. Удаление стоп-слов и выделение корней не выполнялось, поскольку неинформативные слова не влияют на более поздние этапы процесса, а некоторые термины являются информативными по стилю. Низкочастотные слова были удалены с сохранением ограничения 75% от общего количества слов в корпусе.

Возможности для анализа различаются в зависимости от данных и соответствуют процессу анализа множественных соответствий (MCA). Были использованы три набора текстовых данных: обвинения в сексуальном насилии в адрес католического священника (набор данных об инцидентах), отчеты о сексуальных домогательствах (набор данных о неправомерном поведении) и политики университетов США (набор данных о правилах). Из инцидентов набор данных, результат обвинения, епархия и упорядоченное сообщество были преобразованы в фиктивные переменные (горячее кодирование). Набор данных о плохом поведении был обработан по исходу и учреждению. В наборе данных политик использовалось однократное кодирование для имени учреждения. В целях снижения высокой размерности и разреженности количество признаков было выбрано максимально частым.

Когда у нас есть матрица частотных терминов (m документов * n терминов) и матрица закодированных признаков (m документов * n признаков), эти матрицы объединяются, чтобы получить вхождение каждого слово с учетом наличия функции (m слов * n функций) во всех документах. Это полная дизъюнктивная таблица и вход для MCA.

Из набора данных об инцидентах это проекция по первым двум измерениям в результате MCA. Некоторые элементы были добавлены для облегчения интерпретации.

Но что это значит? Красные треугольники представляют функции, а синие кружки — слова. Для интерпретации этих графиков обычно используются две стратегии анализа: во-первых, проекции от начала координат вместе с косинусным сходством, а во-вторых, расположение в квадранте. Можно увидеть 2 основные проекции: одна, указывающая в правый верхний угол (зеленая стрелка), в которой наиболее репрезентативной характеристикой является упорядоченная община, связанная с обвиняемым священником: Конгрегация христианских братьев. В сообщениях об этом сообществе упоминаются несколько обвинений в сексуальном насилии и объявление о банкротстве в США. Такие термины, как «установить» и «банкротство», имеют аналогичные проекции для этой функции. Однако ближе к проекции, но ближе к происхождению находятся такие термины, как школа», «ученик», «учитель». В обратном направлении этого вектора мы нашли в основном епархии и исходы как «освобожденные», «заявление в полицию» и «уволенные в отставку». Второй основной прогноз (желтая стрелка) связан с результатами с продвинутыми процессами жюри. Исходы «осужден» и «приговорен» являются репрезентативными характеристиками этого прогноза, а такие слова, как «тюрьма», «арестован» и «порнография» близки к прогнозу.

Если мы разделим плоскость по пределу нулевых значений оси, то получим 4 квадранта со значениями оси. Первый квадрант (+,+) включает в основном религиозную общину, из которой были назначены священники. Эти общины имеют общие черты, связанные со школами. Возможно, это может быть связано с фактором риска в случаях жестокого обращения, которым являются взрослые (священники), вовлеченные в деятельность с постоянным взаимодействием с детьми (учеба в школе). Мы назвали этот квадрант «Школы». Двигаясь против часовой стрелки, второй квадрант (-,+) связан со второй проекцией, в которой судебные процессы получают продвижение со словами «тюрьма», «арестован» и «порнография». Этот квадрант назывался «Юридические процессы». В третьем квадранте (-,-) наблюдается тенденция к созданию епархий вместо общин, и наблюдаемые результаты подтверждаются восстановлением в должности и увольнением со службы. Одно слово в этом квадранте, более близкое к юридической проекции, — «лаицизация», что является своего рода прошением об отставке с поста священника. Это говорит о том, что происходят внутренние действия, связанные с юридическими процессами. Четвертый квадрант (+,-) имеет рядом с исходной точкой «костюм отозван», а в нижней части, около нулевой оси значение «монсеньор ».

Однако в этой области примечательно то, чего нет: никаких юридических последствий, всего одна община (братья Ксаверия) и несколько епархий. Есть результат «обвиняется» и больше ничего. Кажется, что тут какое-то молчание или дискретный подход к обвинению, особенно с высокопоставленными священниками. Похоже, религиозные общины склонны вмешиваться в судебные процессы, помогая своим братьям. Когда это происходит, юридические последствия слегка склонны к удовлетворению снятых или ситуация заканчивается просто обвинением.

Из этого набора данных данные предполагают, что судебные процессы взаимодействуют с действиями учреждений, особенно религиозных общин, поддерживающих своих членов. Чем выше в иерархии, тем вероятнее вмешательство. Еще одним общим фактором является то, что при появлении обвинения первые действия предпринимаются епархиями, отстраняющими или увольняющими священников от исполнения обязанностей на время расследования ситуации.

Переходя к университетам, следующий график показывает выходные данные MCA из набора данных о проступках, которые представляют собой сообщения о сексуальных домогательствах в университетах.

Идентифицируются три проекции. Первый (зеленый) выравнивает следующие объекты от самого дальнего к ближайшему относительно начала координат:

  • Калифорнийский университет
  • Дисциплина Легкая атлетика
  • Ролевой тренер
  • Университет Флориды
  • Итог: штраф, снижение зарплаты
  • Университет штата Огайо
  • Дисциплина: неизвестна
  • Ролевой факультет (ложь)
  • Результат
  • Администратор роли
  • Ушел в отставку
  • Результат Самоубийство
  • Дисциплина Науки о жизни

Этот прогноз, по-видимому, тесно связан со спортом, включая легкую атлетику как дисциплину и роль тренера как удаленные точки в университетах, таких как Флорида, Калифорния или штат Огайо со спортивными традициями. Кроме того, этот прогноз тесно связан с ролью администратора внутри учреждения и исключает роли преподавателей. Исходы для такого рода ситуаций показывают, что учреждения склонны налагать санкции, не ставя под угрозу винкуляцию штрафами, снижением заработной платы или понижением в должности; однако вовлеченные работники также связаны с уходом в отставку или даже совершением самоубийства. Кейсы по дисциплинам, связанным с науками о жизни, выглядят в соответствии с этой моделью.

Второй прогноз (желтый) показывает сильные тенденции в дисциплинах, связанных с инженерным делом, с юридическими последствиями, такими как признание вины или осуждение, и институциональные действия, связанные с прекращением договорных отношений, такие как увольнение и непродление контракта. Инженерное дело как дисциплина отличается от других областей и предлагает решительные меры против случаев сексуального насилия.

Третья проекция (синяя) выравнивает следующие объекты от самого дальнего к ближайшему относительно начала координат:

  • Дисциплина Психология
  • Дисциплинарная медицина и медицинские науки
  • Результат Приостановлено, Выйти, Ограничения
  • Результат Запрещено занимать руководящую или почетную должность.
  • Дисциплина Английский Письмо Гуманитарные науки
  • Университет штата Иллинойс
  • Ролевой факультет
  • Результат Ушел в отставку (False)

Эта проекция указывает на психологию как на более информативную характеристику и связывает ее с такими дисциплинами, как здравоохранение и гуманитарные науки. Общим для этих трех дисциплин является то, что пол студентов преимущественно женский, но руководящие должности в основном занимают мужчины. Роль факультета также является особенностью наряду с более сильными результатами, чем административные роли: отстранение от должности, увольнение, ограничения, отстранение от руководящих или почетных должностей, но не уход в отставку.

Теперь мы переходим к изучению политики в отношении учреждений, используя только их названия в качестве характеристик:

Первое, что бросается в глаза, — это плотный кластер рядом с источником, что говорит о том, что политики разных университетов имеют схожее содержание и даже стиль написания в зависимости от слов, используемых в этих документах. Однако видны две проекции. Во-первых (зеленый), Университет Дрейка — единственное учреждение, которое проецируется за пределы основного кластера со словами «получатель», «предложение», «регулирование», «тюрьма» и «жалоба». Вторая проекция выравнивается за пределами кластерных учреждений, таких как Технологический институт Луизианы, Университет Северной Дакоты и Государственный университет Арканзаса, а также слова как организация, объект, зал, резиденция, здание и территория. По-видимому, несколько университетов придерживаются двух различных стилей в отношении своей политики. Один связан с физическими элементами и, возможно, указывает на кодекс поведения внутри учреждения. С другой стороны, кажется, что Университет Дрейка использует более абстрактный подход, возможно, связанный с последствиями плохого поведения.

Одной общей чертой отчетов об инцидентах между двумя группами учреждений (религиозными и университетскими) является тенденция дистанцироваться от юридических процессов и по-разному относиться к своим членам в соответствии с иерархией и винкуляция. Этот подход доказывает, что можно найти скрытые в документах шаблоны, которые могут помочь увидеть общую картину.

Графики знаний для лучшего понимания

На данный момент у нас был неконтролируемый исследовательский анализ текста, который мог показать нам некоторые идеи в наших наборах данных. Но мы хотели пойти дальше: стандартным и хорошо известным подходом к моделированию текстовых документов является набор слов, который в конечном итоге поможет нам в изучении частоты и лексического распределения текста. Но как насчет семантики? Мы знали, что KG сможет фиксировать как структуру, так и семантику текста. Но подождите, что такое KG?

Граф знаний (KG) — это просто представление знаний необработанного текста с использованием набора/набора триплетов . Триплет определяется как отношение, состоящее из двух сущностей. Формально: (e1,r,e2) или (h, r, t) (то есть головной объект h, также известный как Subject, и хвостовой объект t, также известный как Объект). Для тех, у кого есть семантический и онтологический инженерный опыт, звучит знакомо, верно?

В нашем случае, после выполнения нескольких конвейерных задач НЛП по извлечению знаний, мы получили тысячи троек, выявляющихразличные сущности, вовлеченные в наши документы (политические документы и, что наиболее важно, инциденты):

Глядя на рисунок выше, он не кажется многообещающим с точки зрения интерпретируемости, но что, если бы мы могли фильтровать на основе наиболее «релевантных» взаимосвязей? ?

Но… что, если бы мы могли не только объяснять, но и оптимизировать?

Объяснение и понимание характера случаев сексуального насилия или домогательств — это очевидный шаг вперед в управлении инцидентами, а также в разработке эффективных мер реагирования. Однако было бы здорово иметь инструмент автоматизации,который мог бы помочь заострить проверку директивных органов.

Для этого мы создали на основе фактических данных алгоритм ранжирования политик.

Гипотеза, лежащая в основе, основана на следующем предположении: существует корреляция между инцидентами и «слабыми местами» в политиках, связанных с ними. Другими словами, чем больше инцидентов связано с одной и той же нормативной или процедурной политикой, тем менее эффективными следует считаться (из-за пробелов, несоблюдения или других факторов/'красных флажков', которые должны быть поставить, дублер).

Для ранжирования политики мы провели мягкое сопоставление между различными наборами данных: набором данных, связанных с инцидентами, и соответствующими извлеченными новостями; и нормативные, политические и процедурные институциональные документы, касающиеся сексуального насилия, сексуальных домогательств на рабочем месте (например, РАЗДЕЛ IX для образовательных учреждений) или даже более общие политики, касающиеся гендерных прав человека (Предотвращение и реагирование на сексуальные проступки ООН). Воспользовавшись некоторыми современными предварительно обученными моделями (Glove или fastext, n-граммное расширение Word2Vec) и различными представлениями документов (BOW + TF-IDF), мы были готовы вычислить корреляцию между целыми документы:

После вычисления матрицы нас интересовала только корреляция между политиками, участвующими в каждом инциденте, поэтому для дальнейшего анализа было взято подмножество матрицы, представляющее сопоставление между политиками и инцидентами:

Наконец, на основе полученной оценки частоты возникновения инцидентов был составлен рейтинг самых «слабых» политик для будущей проверки.

У нас было несколько проблем в этом проекте. Что касается технической части, то первым достижением для команды стала возможность сбора значимых и актуальных данных при полном отсутствии данных. Это было действительно сложно, учитывая конфиденциальность данных, с которыми мы работали. Выбор источников данных был только первым шагом в нашем путешествии, поскольку основной целью было предоставить какие-то механизированные методы, способные помочь в предотвращении сексуального насилия в организациях.

Обнаружение скрытых закономерностей в учреждениях (т. е. сокрытие) является действительно сложной задачей, в основном из-за отсутствия данных (сама идея парадоксальна, будут ли учреждения публиковать свои плохие «практики», которые пытались Спрятать?). Тем не менее, мы смогли найти и экстраполировать различные виды организационных паттернов при сходных обстоятельствах сексуального насилия. Мы считаем формирование политик на основе данных обязательными, поэтому мы попытались внести свой вклад в поддержку соответствия и автоматизацию некоторых процессов формирования политик с помощью различных методов искусственного интеллекта и машинного обучения, таких как исследование и выявление «плохой практики», а также расследование инцидентов.

Это финал пути?? Нет… сила искусственного интеллекта заключается в улучшении повседневных задач специалистов в предметной области за счет сотрудничества между учеными-компьютерщиками и экспертами в предметной области (т. е. политиками). Таким образом, следующим этапом будет не только эмпирическое улучшение наших моделей, но и привлечение экспертов для руководства удобством использования будущих задач по увеличению объема работы, таких как создание новых KPI, оценка и разработка точных оценочных показателей. критерии или методы нормализованного ранжирования.

использованная литература

[1] https://www.rainn.org/

[2] Сол, Дж., и Одадж, Н. (2007). Предотвращение сексуального насилия над детьми в молодежной организации: начало работы с политиками и процедурами.

[3] Центры по контролю и профилактике заболеваний, Национальный центр по профилактике и контролю травматизма. Атланта, Джорджия

[4] Анкета обратной связи интегрированных исследовательских служб.