Привет! Добро пожаловать в третью часть этой серии, если вы не читали вторую часть, то можете прочитать ее здесь. Как я упоминал в предыдущем посте, в этой статье мы рассмотрим проблему разработки функций и преобразования набора данных канадских эскортов с использованием отдельных рекламных данных, а также лежащей в их основе структуры графа. Поскольку извлечение всех нужных функций может занять некоторое время, я разделю процесс разработки функций на две статьи. Поэтому в этом посте мы сосредоточимся на отдельных рекламных объявлениях, а в следующем — на использовании графовой структуры данных.

Давай начнем!

ФункцияИнжиниринг

Моя методология разработки признаков рекламных объявлений состоит из двух частей: во-первых, я вычисляю индивидуальные характеристики для каждого из рекламных объявлений, а затем использую их для характеристики возникающих сообществ набора данных, которые экземпляры, которые мы хотим использовать для обучения распознавать сообщества с высоким уровнем риска.

Однако есть важный факт, который мы должны иметь в виду. Поскольку наше внимание сосредоточено на сообществах, а не на отдельных рекламных объявлениях, очень вероятно, что конечное количество экземпляров (сообществ), которое мы получим, будет довольно небольшим по сравнению с общим количеством объявлений, поэтому, скорее всего, нам придется использовать метод регуляризации, чтобы избежать переобучения в наших моделях (заметим, однако, что мы можем получить сообщества, состоящие только из одной рекламы).

Использование отдельных рекламных объявлений

Как я упоминал в предыдущей статье, большая часть исследований торговли людьми (Alvari. H & et la, 2016), (Alvari. H & et la, 2017), (Nagpal & et la, 2017), (Gimmoni, L. & et la, 2021), (Synder & et la, 2017), при перечислении веб-сайтов основное внимание уделяется изучению и прогнозированию отдельных рекламных объявлений, игнорируя лежащую в основе графовую структуру данных. Тем не менее, графическую структуру данных можно использовать, чтобы лучше понять, как работают эти организации, т. е. определить, какие телефонные номера, внешние веб-сайты, электронные письма и местоположения используются для продвижения их потенциальных жертв.

Кроме того, у этого подхода есть еще одно важное преимущество: заполнение пропущенных значений. Например, при заданном сообществе объявлений, из которых для половины постов известен возраст рекламируемых людей, мы можем использовать среднее значение этих возрастов, чтобы заполнить отсутствующие возрасты другой половины рекламных объявлений, и мы можем использовать аналогичные методы для заполнения других функций. Конкретно, когда можно использовать этот подход, чтобы получить общее представление о том, насколько рискованна отдельная реклама, учитывая характеристики остальных сообщений, принадлежащих тому же сообществу.

Теперь давайте извлечем некоторые функции!

Обработка исходных признаков

Исходный набор данных содержит следующие функции: заголовок, текст, категорию, номер телефона, регион, город, место, дату публикации, широту, долготу, адрес электронной почты, внешний веб-сайт, этническую принадлежность и возраст, однако я решил опустить место, категорию и столбцы даты публикации, потому что столбец места пуст, столбец категории содержит только одно значение («сопровождение»), и хотя дата публикации может быть полезной, я пока не буду сосредотачиваться на временных данных.

Кроме того, я закодировал номер телефона, регион, город, адрес электронной почты, внешний веб-сайт и признаки этнической принадлежности с помощью объекта LabelEncoder из sklearn. За исключением признака этнической принадлежности, я буду использовать предыдущие признаки только для идентификации возникающих сообществ. Что касается признака этнической принадлежности, я буду использовать его для определения того, сколько этнических групп присутствует в одном и том же сообществе.

Теперь я определяю четыре функции, которые помогут нам извлечь признаки из текстов. Целью этой функции является поиск биграмм, слов и фраз, представляющих интерес.

Местоимения третьего лица

По мнению прокуратуры, это один из самых рискованных факторов, потому что создается впечатление, что рекламируемые люди контролируются третьей стороной. Следовательно, наш интерес состоит в том, чтобы идентифицировать местоимения третьего лица, такие как «она», «ее», «ее» и «сама». Кроме того, мы также стремимся найти биграммы, такие как «новая девушка», «сексуальные цыпочки» и другие. Обратите внимание, что мы рассматриваем окно биграммы, потому что иногда мы можем найти шаблоны, такие как «сексуальные азиатские цыпочки», поэтому окно биграммы позволяет использовать для идентификации «сексуальных цыпочек», даже если в середине есть слово.

Местоимения первого лица множественного числа

Еще одним фактором риска для прокуроров является наличие в рекламе местоимений первого лица множественного числа. Это фактор интереса, поскольку подразумевает наличие в рекламе нескольких рекламируемых лиц, что может быть связано с существованием какой-то организованной группы (чаще всего связанной с какой-либо проституцией). Поэтому нас интересуют такие местоимения, как «нас», «наш», «наш», «нас», а также некоторые биграммы, такие как «с нами», «сообщите нам», «посетите нас» и т. д.

Сервис ограничен (каким-то образом)

По словам прокуроров Перу, с которыми я беседовал, организации, занимающиеся торговлей людьми, принуждают своих жертв к сексуальным отношениям без каких-либо ограничений или ограничений. Поскольку основное внимание этих преступников направлено на удовлетворение потребностей своих клиентов, они принуждают своих жертв к любому виду секса без какой-либо защиты (использования презерватива). Таким образом, мы пытаемся идентифицировать рекламные объявления, в которых указаны определенные ограничения в рекламируемой услуге, потому что это может дать нам некоторое представление о шансах человека решить, какие отношения он хочет иметь.

Место обслуживания

Сети торговли людьми чаще всего, если не всегда, хотят скрыть своих жертв. На самом деле, большинство из них запрещает своим жертвам взаимодействовать с любым компьютером или мобильным телефоном, потому что это потенциально может дать им возможность связаться с правоохранительными органами или родственниками. Поэтому для прокуроров реклама, предлагающая только услуги по вызову, скорее всего, связана с торговлей людьми, потому что она заставляет клиента идти в конкретное место, обычно контролируемое этими организациями. Поэтому мы стремимся охарактеризовать рекламу следующим образом: -1, если место не указано, 0, если предлагаются услуги по вызову, и 1, если предлагаются только услуги по вызову. Обратите внимание, что мы будем рассматривать эту функцию как число, а не как категориальную функцию.

Ключевые слова

Для этой функции мы стремимся определить несколько ключевых слов или выражений, обычно используемых торговцами людьми, связанных с контролем движения жертвы и возрастом жертвы. Для первых одной из стратегий этих организаций является постоянное перемещение своих жертв по нескольким городам или регионам, чтобы правоохранительным органам было труднее их отслеживать, поэтому мы ищем такие выражения, как «новенькая в городе», «новая девушка». », «краткосрочный» и т. д. Для последнего преступники обычно используют некоторые ключевые слова для обозначения возраста жертвы, такие как «новое лицо», «мне исполнилось 18», «я новичок» и другие.

Примечание. Я хочу поблагодарить компанию S top the Traffik (2022), которая предоставила мне список ключевых слов, часто встречающихся в рекламных объявлениях, которые, как доказано, связаны с торговлей людьми.

Использование функций

Наконец, применяя все предыдущие функции, мы получаем следующие распределения наших новых функций. Как я упоминал ранее, после того, как мы определили новые сообщества в нашем наборе данных, используя такие функции, как номер телефона, адрес электронной почты и внешний веб-сайт, мы будем использовать эти совершенно новые функции для характеристики сообществ и, наконец, создадим набор данных сообществ.

PD: Посетите блокнот Jupyter, который я использовал здесь.

Что дальше?

В следующем посте мы сосредоточимся на использовании графовой структуры данных. Учитывая тот факт, что в этой статье мы уже рассчитали все желаемые функции для отдельных рекламных объявлений, мы будем использовать эту информацию для создания нового набора данных, где экземплярами являются сообщества, а не отдельные рекламные объявления.

Рекомендации

  • Чираг Нагпал, Кайл Миллер, Бенедикт Бекинг и Артур Дубравски (2017). Подход к разрешению юридических лиц для изоляции случаев торговли людьми в Интернете.
  • Хамидреза Альвари, Пауло Шакарян и Дж. Э. Келли Снайдер (2017). Полуконтролируемое обучение по выявлению торговли людьми.
  • Хамидреза Альвари, Пауло Шакарян и Дж. Э. Келли Снайдер (2016). Непараметрический подход к обучению для выявления торговли людьми в Интернете.
  • Лука Джоммони и Рух Икву (2021). Выявление индикаторов торговли людьми на онлайн-рынке секс-услуг Великобритании.
  • Остановить движение (2022). Набор данных по ключевым словам о торговле людьми (2022 г.).