Почему модерация контента такая сложная?

Заявление об отказе от ответственности: в приведенном ниже тексте упоминается нецензурная лексика, имеющая отношение к разжиганию ненависти.

Понятно, что оскорбительный контент - это проблема. Целая треть взрослых и почти половина подростков стали объектами жестокого преследования в Интернете. И у этого злоупотребления есть некоторые ужасающие последствия в реальном мире. Многочисленные исследования показали, что дети, подростки и молодые люди, ставшие жертвами домогательств в Интернете, более чем в два раза чаще, чем не пострадавшие, к самоповреждениям, проявляют суицидальное поведение, рассматривают возможность самоубийства и пытаются совершить самоубийство.

Но присутствие оскорбительного контента продолжается и даже растет. Она превратилась в настоящую гидру: отрубите одну голову, и на ее месте вырастут новые. Тем не менее, мы живем в эпоху карманных суперкомпьютеров, беспилотных автомобилей и клонированных овец. Почему так сложно контролировать оскорбительный контент? Давайте посмотрим, почему эта проблема так трудноразрешима, и что ждет модерацию контента в будущем.

Движущаяся цель

Если бы нужно было составить список оскорбительных терминов и объединить его с горсткой контекстных сигналов, с проблемой можно было бы справиться. Но язык постоянно развивается. А язык, распространяемый в Интернете, развивается с огромной скоростью. Некоторые примеры:

Ошибки в написании и подстановка символов. Большая часть Интернета не использует идеальную орфографию и грамматику, а это означает, что некоторые языки, которые все еще понятны для нас, могут быть легко неправильно поняты программным обеспечением. Например, гомофобное оскорбление педик может отображаться как faget, fgt, phaggot, fa go tt , f @ gg0t, fagot или бесконечное множество других вариантов.
Новые оскорбления. Антиазиатские оскорбления резко усилились во время пандемии COVID-19. По нашим подсчетам, появились десятки новых антиазиатских эпитетов, таких как кунг-грипп и косоглазая болезнь, которые связывают азиатских людей и людей азиатского происхождения с коронавирусом в только первый квартал 2020 года.
Присвоение безобидных терминов. Начиная с начала 2020 года, бегун стал анти-черным эпитетом после трагического убийства Ахмауда Арбери. Кажущиеся неоднозначными фразы подобным образом регулярно используются в Интернете. Еще один пример, который мы видели, - это убрать кебаб, фразу, которую, вероятно, упускают из виду многие системы обнаружения, которая использовалась как призыв к этнической чистке.
Идеограммы. Группы сторонников превосходства белых используют разнообразную числовую лексику для общения между собой. Замена цифры 8 вместо буквы H (восьмой буквы алфавита) позволяет строке 88 стать сокращением для Хайль Гитлер. Известно, что те же группы использовали число 109 для обозначения количества мест, из которых, по их утверждениям, были изгнаны евреи, и число 110 как призыв к изгнанию. Евреи с нового места.
Логограммы. Хотя смайлы иногда до смешного запутаны, они могут использоваться для передачи сложных эмоций, избегая обнаружения при этом традиционными системами модерации. Показательный пример: 🧀🍕 иногда используется вместо «пицца с сыром», которая сокращается до «CP», что, в свою очередь, сокращается до «детской порнографии».

И это просто английский. Хотя некоторые фразы можно перевести, многие по-прежнему относятся к отдельным языкам. И даже в пределах одного языка значение может варьироваться в зависимости от сообщества. Например, разговоры об убийстве людей обычно вызывают тревогу, но в сообществе видеоигр это может быть просто отсылкой к игре в шутер от первого лица.

Чтобы не придавать этому большого значения, но обнаружение злоупотреблений намного сложнее, чем сопоставление ключевых слов.

Правда или ложь

Приведенные выше примеры представляют собой половину проблемы: предотвращение ложноотрицательных результатов. Любая система должна уметь определять это как злоупотребление и не упускать из виду. Но есть еще и обратная задача: избегать ложных срабатываний. Здесь контент помечается за использование ненормативной лексики, даже если намерение не соответствует действительности.

Вы когда-нибудь использовали фразу Я просто хочу умереть, чтобы выразить смущение, или Я убью вас, чтобы показать игривый гнев? Взятые по отдельности, их можно легко интерпретировать как намерение причинить вред. В таких случаях отметка контента может привести к ненужной приостановке. Отнюдь не идеально, но все же понятно.

Но что, если кто-то использует расовые оскорбления, чтобы описать свой опыт как цель словесной атаки? Их отметка не только создает сценарий «обвинения жертвы», но также заставляет замолчать невинный и уязвимый голос. Это полная противоположность тому, чего пытаются достичь онлайн-сообщества.

Контекст - это все

Во многих случаях то, что отличает ложные срабатывания и отрицания от законно оскорбительного содержания, - это контекст. И многие компании предпочитают прикреплять этот контекст, заставляя людей просматривать пользовательский контент. Вышеупомянутые ложные срабатывания, взятые как часть более широкого разговора и просмотренные человеком, легче идентифицировать как таковые. Но для машины, без разбора просматривающей изолированные наборы данных, это может быть не так.

Однако человеческая умеренность имеет свои проблемы. Поручите кому-то ежедневно просматривать оскорбительный контент, и они пострадают. В 2018 году бывший модератор контента Facebook подал в суд на компанию за создание небезопасных условий труда, ссылаясь на психологическую травму и посттравматическое стрессовое расстройство. Похожая история всплыла совсем недавно о подобных исках к YouTube со стороны бывшего модератора. Модераторы, ежедневно испытывающие эти эффекты, оборачиваются огромными эмоциональными и психологическими затратами.

Кроме того, системы, предоставляемые модераторам-людям, не на должном уровне. По нашему опыту, традиционные инструменты направляют контент модераторам для проверки с небольшой структурой, категоризацией или контекстом. Когда контент передается модераторам, это обычно происходит разрозненно. Это требует от них работы строка за строкой, переключаясь между разными типами контента с разным уровнем серьезности, что затрудняет выявление возникающих закономерностей. И если они получают слишком много ложных срабатываний - будь то отчеты пользователей или автоматизированные системы - это только усугубляет проблему.

Даже если вы смогли решить эти проблемы, оградив модераторов от интенсивности контента и обеспечив лучшую фильтрацию и категоризацию, остается проблема объема. В лучшем случае модератор контента может просматривать 3000 фрагментов контента в стиле комментариев в день (что равносильно оценке, которая выносится каждые ~ 10 секунд в течение восьми часов подряд). Это капля в море для более крупных платформ, которые ежедневно видят миллионы или миллиарды частей контента.

Дорогая проблема

По сути, проблема модерации контента заключается в обнаружении. Масштабное решение этой проблемы - очень дорогостоящее мероприятие, будь то обнаружение людей или найм специалистов по машинному обучению и попытки создавать собственные инструменты. И даже в этом случае нет гарантии успеха. У большинства компаний просто нет ресурсов, чтобы инвестировать в это в той степени, в которой этого требует эта проблема. По мере роста пользовательской базы платформы решать эту проблему становится все труднее. И вам будет сложно найти компанию с платформой сообщества, которая хочет, чтобы их основное внимание было сосредоточено на инструментах модерации контента, а не на создании потрясающего уникального сообщества.

Даже если компания, размещающая агрессивный, ненавистный или иным образом оскорбительный контент, не испытывала моральных сомнений по этому поводу, его присутствие подрывает доверие пользователей. Поскольку пользователи теряют уверенность в заботе платформы об их благополучии, многие уходят. 30% взрослых перестают использовать платформу после того, как их на ней оскорбляют. Как бы нам ни хотелось верить, что человеческих потерь - травмированных пользователей и модераторов - будет достаточно, но потеря взаимодействия - это цена, о которой говорят все компании.

Путь вперед

Мы считаем, что защита больших и разнообразных сообществ требует понимания контекста. И это основа работы, которую мы выполняем в Sentropy, - предоставление унифицированного специализированного решения для обнаружения и защиты цифровых сообществ от вредоносного контента.

Мы добились этого, используя наш опыт в машинном обучении и человеческом интеллекте, чтобы создать технологию, которая учится и адаптируется к эволюции языков в Интернете. Вместо того чтобы распознавать ненормативную лексику постфактум, мы изучаем ее по мере ее развития. Мы собираем контекстные сигналы со всех уголков Интернета - от темной сети до наиболее распространенных социальных сетей. А поскольку это может быть уязвимость, мы предприняли шаги для активной борьбы с предвзятостью.

Подобно тому, как другие технологические компании создали новые возможности для бизнеса - например, Stripe для платежей или Twilio для коммуникаций, - мы создали инфраструктуру модерации, которая может помочь сообществам процветать. Мы делаем это с помощью нашего API обнаружения, который позволяет клиентам интегрировать наши передовые возможности обнаружения в существующие рабочие процессы модерации. Не требуется дорогостоящая и трудоемкая внутренняя разработка, только технология обнаружения мирового класса, которая готова к работе, расширяя возможности ваших модераторов, менеджеров сообщества и команды Trust & Safety.

А для платформ, которым требуется комплексное решение, мы также предоставляем Defend, интерфейс на основе браузера для доступа к интеллектуальным функциям Detect. С помощью Defend модераторы могут определять конкретные типы злоупотреблений, обнаруживать поведенческие тенденции и принимать более эффективные и последовательные решения. Возможно, самое главное, поскольку платформы используют Sentropy для принятия решений о модерации, наши технологии учатся в реальном времени, чтобы адаптировать классификации к этому сообществу, помогая привлечь внимание туда, где это больше всего необходимо.

Несмотря на то, что сообщества борются со злоупотреблениями, мы по-прежнему видим в них пользу. Они дают голос недостаточно представленным, обеспечивают безопасные места для процветания общих интересов и помогают соединить нас через границы. Оскорбительный контент может представлять собой серьезную проблему, но знайте, что ее можно преодолеть. И если мы будем решать эту проблему, по одному сообществу за раз, у всех нас будет более безопасный и удобный для всех Интернет.