Мультимодальная автоматическая модерация контента

Сохранение честности в ShareChat и Moj (Часть I)

Автор сценария Джатин Мандав, Ришубх Парихар, Шриджан Сакет, Викрам Гупта, Дебдут Мукерджи

Ежедневно в ShareChat и Moj создаются миллионы сообщений, поэтому своевременное и точное обнаружение контента, нарушающего целостность (IVC) имеет решающее значение для обеспечения безопасности наших пользователей и целостности нашей платформы. Из-за огромного количества этих сообщений невозможно модерировать каждое сообщение вручную, поэтому нашим модераторам контента помогают наши передовые мультимодальные алгоритмы, позволяющие пометить подозрительный контент и направить его через рабочий процесс модерации.

Поскольку эти сообщения имеют форму изображений, текста или видео, жизненно важно, чтобы мы эффективно обрабатывали несколько модальностей вместе в наших моделях модерации контента. Например, на Рисунке 1, чтобы правильно понять пост, нужно понять и текст, и визуальное оформление вместе; рассмотрение любой из модальностей не дает достаточно информации о контексте.

Наша мантра - безопасность наших пользователей и целостность нашей платформы.

Давайте начнем с первой части серии из трех частей (часть 2, часть 3), где мы представляем наш путь разработки лучших в своем классе мультимодальных алгоритмов ИИ для автоматической модерации. мультимодального контента. Мы обсуждаем, почему различные готовые решения для модерации контента не работают для нас, а также углубляемся в инновационные методы, которые мы используем, чтобы справиться с нехваткой помеченных данных для обнаружения IVC.

Что такое контент, нарушающий целостность (IVC)?

Наша платформа видит различные типы контента, нарушающего целостность (IVC), такие как сообщения NSFW (Not Safe For Work), которые могут включать CSAM, изображения обнаженной натуры, насилия, запекания и т. Д., Сообщения-приманки, которые могут заставить пользователя поделиться, лайкнуть или щелкнуть по нему, спам сообщения, язык вражды, фейковые новости и т. д. Несколько примеров этих сообщений показаны на рисунке 2.

Сообщения NSFW (Not Safe for Work) содержат порнографический контент или незаконные действия, такие как насилие, кровопролитие, самоубийство и т. д.

Приманки для вовлечения побуждают пользователя поставить лайк / поделиться сообщением или подписаться на автора, но обычно не содержат высококачественного содержания.

Спам. Подобно приманкам для вовлечения, у нас есть контент, авторы которого неоднократно загружают ложную рекламу, чтобы получить более широкий охват.

Цель создателя такого контента - сделать публикацию доступной для широкой аудитории и получить больше лайков / репостов. Такой контент часто получает огромное количество лайков и репостов, что соответствует цели создателя, но приводит к плохому пользовательскому опыту. Следовательно, важно как можно раньше обнаруживать и удалять такой контент с платформы для лучшего взаимодействия с пользователем.

Рабочий процесс модерации контента

Наш рабочий процесс модерации контента включает как модераторов-людей, так и алгоритмы ИИ, которые работают вместе, чтобы пометить контент, нарушающий целостность (IVC), как только он будет создан на наших платформах.

Из-за огромного размера контента, ежедневно публикуемого на платформе (более 3 миллионов сообщений в день), невозможно модерировать каждое сообщение вручную. Чтобы решить эту проблему в масштабе, нашим модераторам контента помогают наши передовые мультимодальные алгоритмы, позволяющие помечать подозрительный контент и направлять его через рабочий процесс модерации. Фигура. 3 представляет собой общий обзор рабочего процесса.

Политика модерации контента: проактивная, реактивная и инициируемая пользователем

Проактивный подход: каждое сообщение, созданное нашими авторами, проверяется с помощью серии моделей искусственного интеллекта, чтобы получить оценку вероятности того, что сообщение является IVC. На основании достоверности этих прогнозов сообщение помечается для проверки вручную. После того, как пост помечается моделями как IVC, действия, предпринимаемые с постом, и приоритизация для ручной проверки основаны на серьезности класса обнаруженного IVC. Например, сообщения NSFW могут иметь более высокий приоритет при ручной модерации и могут вызывать более строгий запрет на создателя по сравнению с сообщениями-приманками. Этот ручной просмотр отмеченных сообщений не только помогает нам контролировать ложные отклонения, но и помогает модели лучше обучаться, поскольку похожие сообщения впоследствии автоматически удаляются.

Отзывы пользователей: помимо автоматической системы отметок, пользователи нашей платформы также сообщают о IVC. Как правило, эти сообщения появляются на платформе, когда модели не помечают их как IVC. Чтобы предотвратить злоупотребление функцией отчета, мы направляем сообщение IVC группе модерации контента. Поскольку наши модели искусственного интеллекта не смогли обнаружить эти сообщения, мы помечаем их и используем эти примеры для переобучения нашей модели.

Реактивный подход. Еще одна стратегия, которую мы приняли, заключается в том, что мы регулярно проверяем очень вирусный контент, поскольку он влияет на большое количество пользователей. Каждый пост, который превышает установленный порог виральности, вручную проверяется экспертами-рецензентами.

Показатели производительности. Поскольку мы постоянно совершенствуем наши модели и процессы модерации контента, мы руководствуемся следующими показателями, которые измеряют наш прогресс в обнаружении IVC, даже в условиях состязательности, когда злоумышленники на платформе находят новые способы нарушения целостности наших платформ.

  • Просмотры сообщения IVC: Несмотря на все наши усилия, некоторые сообщения IVC могут проскользнуть через ворота и стать достоянием некоторых наших пользователей, прежде чем в конечном итоге будут отброшены. Мы измеряем, сколько раз публикация IVC просматривается нашими пользователями, прежде чем ее в конечном итоге отбросят.
  • Скорость автоматической модерации. Мы измеряем долю сообщений IVC, обнаруженных системами модерации на основе искусственного интеллекта.

Почему стандартные решения не работают?

Обнаружение IVC для изображений является распространенной проблемой для любой платформы, управляемой контентом, и существуют существующие решения для таких задач, как Google Vision, ClarifAI, Amazon Rekognition и т. Д. Однако они не работают для наших целей по следующим причинам:

  1. Мультимодальный. Большинство вышеупомянутых моделей используют только визуальную информацию для обнаружения некачественного контента, тогда как наш контент является мультимодальным по своей природе. Как упоминалось ранее, наши модели используют мультимодальный подход, который обрабатывает визуальные, звуковые и текстовые данные вместе для классификации IVC.
  2. Многоязычный. Наш контент многоязычный по своей природе и охватывает широкий спектр индийских языков, что требует более специализированных моделей, адаптированных к индийскому контексту.
  3. Культурный и географический контекст: эти решения основаны на глобальных данных и достаточно хорошо работают с общими сценариями, но упускают из виду культурные и географические тонкости, которые становятся важными для правильной классификации более сложных примеров. Например, цензурированный контент (с использованием размытия) может не считаться IVC для некоторых регионов, но считается оскорбительным в другом.
  4. Профиль создателя. Профиль создателя также играет важную роль в обнаружении IVC. Создатель с хорошей репутацией с меньшей вероятностью будет публиковать такой контент, и поэтому мы хотим, чтобы наши модели учитывали контекст о создателе также при оценке контента.
  5. Разъяснимость. Поскольку мы хотим поощрять и информировать наших создателей о качестве контента, мы также хотим, чтобы наши модели объяснили причину удаления сообщения. Мы предпринимаем специальные шаги, чтобы сделать наши модели более понятными.
  6. Несогласованное содержание представляет собой важную проблему, поскольку эти сценарии требуют детального и более глубокого понимания содержания. Наши пользовательские наборы данных охватывают такие сценарии.
  7. Обработка изображений. Мы наблюдаем, что стандартные решения не работают с изображениями, которые были обработаны с помощью наложенных фильтров изображений. Эти фильтры составляют важную часть нашей платформы, и наши модели IVC должны быть устойчивыми к ним. Более того, поскольку наложения и приемы обработки изображений со временем развиваются, постоянное изучение наших моделей позволяет лучше улавливать такие закономерности.
  8. Развивающиеся политики и тенденции. Определение того, что представляет собой контент IVC, постоянно обновляется, чтобы идти в ногу с последними тенденциями в области контента, которые появляются на платформе. Наши модели регулярно переобучаются, чтобы отразить изменения в политике и уловить новые тенденции.

Собственный набор данных

У нас есть собственный набор данных IVC, который постоянно обновляется и учитывает все наши требования. Чтобы сделать прогнозы более понятными, мы разбиваем посты IVC на подкатегории, которые охватывают различные типы IVC (например, кровопролитие, насилие, нагота, наживка и т. Д.). Поскольку ручное аннотирование миллионов сообщений требует много времени и средств, мы используем интеллектуальные методы увеличения данных для создания больших наборов данных с минимальной ручной маркировкой. Более того, поскольку соотношение содержания IVC очень низкое по сравнению с допустимым содержанием, поиск достаточного количества содержания IVC во всех подкатегориях представляет собой серьезную проблему сам по себе и требует передовых методов. Ниже мы описываем исходные основы этих методов, а в Части 3 этой серии мы представим более свежие достижения в этом направлении.

Распространение ярлыка

Основная идея распространения меток состоит в том, чтобы распространить метки из небольшого набора помеченных примеров на немаркированные примеры на основе их сходства с помеченными примерами.

Идея распространения меток состоит в том, чтобы распространить метки из небольшого набора помеченных примеров на немаркированные примеры на основе их сходства с помеченными примерами. Чтобы зафиксировать сходство, мы получаем хорошее семантическое представление содержания с учетом всех модальностей. Начнем процесс с набора помеченных примеров - Рисунок 5 (а). Для каждого немаркированного примера (красный кружок на рисунке 5 (b)) мы находим ближайших соседей с высокой мерой сходства в многомодальном пространстве вложения и присваиваем этому примеру те же метки, как показано на рисунке 5 (c). Этот процесс повторяется для всех немаркированных примеров.

Поскольку количество помеченных данных увеличивается с итерациями, эффективный поиск ближайших соседей становится сложной задачей. Мы использовали FAISS для получения ближайшего соседа. Хотя распространение меток эффективно, оно не работает в сочетании с обучением модели для конкретной задачи. Более того, качество и охват исходных образцов играют важную роль в получении качественных аннотаций. Поэтому мы используем активное обучение для решения проблемы.

Активное обучение

Мы используем активное обучение для реализации непрерывного обучения в наших моделях. Мы заметили, что производительность модели со временем может ухудшиться, если не обновлять ее регулярно. Это могло произойти из-за того, что в систему попадают новые крайние случаи, и люди находят инновационные способы манипулировать системой и обмануть ее.

Непрерывное изучение наших моделей с активным обучением гарантирует, что наши модели способны не отставать от динамического и состязательного характера проблемы обнаружения IVC.

Кроме того, это помогает уменьшить объем данных, которые нужно аннотировать вручную, тем самым экономя время и усилия. В рамках активного обучения мы сначала обучаем модель на помеченных обучающих данных, а затем используем ее для прогнозирования на немаркированных данных. Все точки данных, в которых модель не уверена в прогнозах, отправляются для ручного аннотирования. Неопределенность можно измерить с точки зрения энтропии прогнозов или отношения вероятностей двух верхних прогнозируемых категорий.

Высокая энтропия означает, что модель не понимает прогнозов, и примеры следует отправлять для ручного аннотирования, в то время как более низкая энтропия, вызванная пиковым распределением вероятностей, предполагает надежные прогнозы.

Отношение вероятностей первой и второй наилучших предсказанных категорий - еще один способ измерить путаницу в модели. Мы используем эти меры, чтобы отфильтровать сообщения для ручных аннотаций. Кроме того, мы сосредоточены на создании таксономии ярлыков, чтобы мы могли контролировать производительность модели по конкретным категориям.

Полу-контролируемое обучение

Как отмечалось ранее, положительные образцы для IVC очень редки, поэтому поиск достаточного количества данных IVC по всем подкатегориям IVC само по себе является огромной проблемой. Чтобы решить эту проблему, мы работали над методами обучения с полу-учителем, а именно. Модели Подлый учитель, которые можно обучить с помощью небольшого количества выборок данных без ущерба для производительности. Мы обсудим эти техники в третьей части этой серии.

Архитектуры мультимодальных моделей

Разработка нейронных архитектур, которые могут эффективно комбинировать представления, полученные из визуального, звукового, текстового, а также другого дополнительного контекста о создателях и т. Д., Является ключевой областью для улучшения обнаружения IVC. Мы экспериментировали с разными техниками объединения представлений, извлеченных из разных модальностей - Раннее слияние, Позднее слияние и Смешанное слияние.

В Early Fusion мы объединяем мультимодальные функции с помощью конкатенации, сложения и т. Д. Только на ранней стадии и используем агрегированные функции в качестве входных данных для классификатора IVC. Различные модальности соответствующим образом нормализованы, так что значения находятся в одинаковом диапазоне.

В Позднем слиянии мы передаем характеристики каждой модальности в качестве входных данных для классификатора IVC, зависящего от модальности. Каждая модальность дает распределение вероятностей, и мы объединяем прогнозы модальностей, используя другой классификатор.

Мы замечаем интересные результаты, используя комбинацию позднего и раннего слияния. Мы рано объединяем одни модальности, а другие объединяем на более позднем этапе. Мы называем эту установку Mix Fusion.

В следующих разделах этого поста давайте углубимся в визуальные классификаторы для обнаружения NSFW на изображениях и видео, чтобы провести конкретное обсуждение.

Training Vision Backbone

В этом разделе мы объясним некоторые модели видения, которые мы разработали для обнаружения содержимого IVC на платформе. Мы используем самые современные архитектуры для обучения визуальных классификаторов. Мы запускаем обучение с использованием набора данных OpenImage, поскольку он имеет 5000 классов и включает такие классы, как органы, бикини, купальники, кровь и т. Д., Которые могут быть индикаторами содержания NSFW. Затем мы обучаем мультиклассовый классификатор поверх этого экстрактора признаков для классификации по нескольким категориям IVC.

На рисунке 8 мы видим, что даже предварительно обученный Resnet101, обученный с помощью OpenImage, способен выделить некоторые категории IVC. Однако некоторые классы перекрываются в пространстве вложения (нижний левый угол). Обучение классификатора (справа) на нашем наборе данных IVC дает лучшее пространство для встраивания и хорошо разделяет категории IVC. Мы действительно замечаем перекрытие кластеров в центре графика, но при дальнейшем исследовании мы обнаружили, что перекрытие между похожими категориями IVC содержит изображения с похожими метками. Тонкая настройка магистрали Resnet101 CNN приводит к дальнейшему выигрышу, вместо того, чтобы просто использовать ее в качестве средства извлечения функций.

Ансамбль двоичных классификаторов

Мультиклассификатор, точно настроенный для нашего набора данных, образует разумную исходную базовую линию, но потеря перекрестной энтропии сильно наказывает ошибочную классификацию среди аналогичных классов IVC. Например, было бы приемлемо допускать ошибки между наготой и предполагаемой наготой, но потеря сильно наказывает такие ошибки, и это затрудняет обучение. Чтобы решить эту проблему, мы экспериментировали с обучением нескольких поверхностных, но экспертных моделей бинарной классификации по подмножеству категорий IVC. Мы объединяем результаты всех этих бинарных экспертных моделей с использованием отдельного классификатора для генерации окончательной классификации IVC. Мы наблюдаем среднее улучшение запоминаемости при таком подходе на 7,9% по сравнению с мультиклассификатором.

Использование профиля автора

Отслеживание качества контента, публикуемого создателем, играет важную роль в улучшении обнаружения IVC. В ShareChat и Moj мы внимательно изучаем контент, загруженный нашими создателями, а также взаимодействие, полученное по их сообщениям. Это помогает нам поощрять создателей, создающих интересный и развлекательный контент, одновременно обучая авторов, которые не получают достаточного количества просмотров или нарушают наши правила. Мы наблюдаем, что контент IVC обычно поступает от создателей, которые либо не осведомлены о политике и рекомендациях, либо публикуют такой контент добровольно. С этой целью мы добавляем в нашу модель представление создателя, которое учитывает их историю нарушений. Кроме того, мы изучаем методы улучшения таких представлений создателей, чтобы выявить сговор между злоумышленниками на платформе.

Мы наблюдаем среднее улучшение примерно на 25% в точках отзыва за счет использования истории создателя наряду с пониманием контента.

Обнаружение IVC в видео

В предыдущем разделе мы обсудили модели зрения, обрабатывающие изображение. В целях обнаружения IVC на видео мы начинаем с базового подхода, который запускает логический вывод с одними и теми же моделями на разных кадрах видео и объединяет прогнозы на уровне кадра. Чтобы управлять затратами на вычисления и производительностью в реальном времени, мы отбираем для этой цели несколько кадров из видео. Выборка кадров должна выполняться разумно, потому что содержимое IVC может быть расположено в нескольких кадрах, которые могут полностью игнорироваться во время выборки.

С этой целью мы извлекаем из видео кадры Hecate, которые захватывают самые разные и четкие кадры из видео и помогают нам найти компромисс между точностью и стоимостью вычислений. Во второй части этой серии сообщений в блоге мы обсудим, как мы значительно улучшили этот базовый уровень за счет эффективного включения пространственно-временной информации, представленной в видео.

Далее

Этот пост был первой частью нашей серии из трех частей, в которой рассказывается о проблеме мультимодальной модерации контента и обсуждаются некоторые начальные подходы. Однако точная, но эффективная модерация мультимодального контента требует более сложных механизмов. Во второй части мы обсудим архитектуры для моделирования пространственно-временной информации и обсудим такие идеи, как извлечение знаний для повышения эффективности видеомоделей. В третьей части мы обсудим подходы полууправляемого обучения, позволяющие сделать их точными, не требуя больших объемов данных.

Прочтите вторую часть и третью часть здесь.

Дизайн Ритеш Вайнганкар и Вивек В.