Создание простого инструмента видеоаналитики с использованием модели CLIP

Мы тонем в информации, но жаждем знаний — Джон Нейсбит

Фон

Дезинформация и пропаганда — это формы коммуникации, предназначенные для обмана или введения в заблуждение. Их можно распространять через различные каналы социальных сетей, поскольку они позволяют пользователям быстро и легко делиться информацией и идеями с большой аудиторией.

Распространение дезинформации и пропаганды через социальные сети может иметь серьезные последствия. Это может привести к распространению ложной или вводящей в заблуждение информации, что может негативно повлиять на отдельных людей и общество. Например, это может привести к тому, что люди будут принимать решения на основе неверной информации, что приведет к негативным результатам. Это также может разжигать конфликты и разногласия и подрывать доверие к институтам и средствам массовой информации. В крайних случаях это может даже способствовать насилию и дестабилизации. Поэтому важно осознавать возможность распространения дезинформации и пропаганды через социальные сети и принимать меры по противодействию этому.

Представляем видеоаналитику

Видеоаналитика — это возможность автоматического анализа видеоконтента для извлечения смысла и понимания временных и пространственных событий. Его можно применять к различным сценариям и вариантам использования.

В сфере онлайн-безопасности видеоаналитика может применяться для выявления и отслеживания распространения дезинформации и пропаганды. Это связано с тем, что образ действий субъекта дезинформации заключается в распространении и усилении фрагмента повествования по одному или нескольким каналам социальных сетей, часто каскадным образом. Поскольку видео является популярным средством массовой информации в социальных сетях, возможность применять видеоаналитику для быстрого понимания и отслеживания их распространения будет полезна для выявления источников дезинформации, прежде чем предпринимать необходимые действия для прекращения ее распространения.

Модель CLIP

Один из способов создания такого инструмента видеоаналитики — использовать модель CLIP, созданную OpenAI. CLIP (предварительное обучение контрастному языку – изображениям) — это современная модель, разработанная OpenAI, которая может анализировать как текст, так и изображения. Обучаясь на наборе данных из 400 миллионов пар изображений и текста, где текст описывает изображение, CLIP может сочетать знание языковых концепций с семантическими знаниями изображений. Основная идея CLIP — изучить хорошие визуальные и текстовые представления из огромного набора данных.

Помимо текста и изображений, CLIP также может быть полезен для анализа видеоданных, поскольку его можно применять для понимания титров и сцен, появляющихся в видео, тем самым находя применение в таких целях, как фильтрация видео, поиск и даже тематическое моделирование.

В этой статье я опишу, как я адаптировал CLIP для анализа видео.

Руководство для начинающих по модели CLIP – KDnuggets
CLIP — это мост между компьютерным зрением и обработкой естественного языка. Я здесь, чтобы разобрать для вас CLIP на…www.kdnuggets.com

CLIP как современная модель компьютерного зрения. Ниже показано, что CLIP превосходит другие модели компьютерного зрения независимо от масштаба и эффективности вычислений. Они тестируются на нескольких наборах данных, охватывающих широкий спектр категорий.

Создание простого инструмента видеоаналитики

У меня была возможность поэкспериментировать с моделью CLIP и разработать простой инструмент видеоаналитики. Вот какие шаги я предпринял:

Сбор и хранение видеоданных
Предварительная обработка видео путем создания видео-резюме
Пропуск сводки видео через модель CLIP для создания встраивания текста в изображение.
Создание серии последующих задач, в которых используется вышеуказанное встраивание. Я экспериментировал со следующими задачами:

Задача 1: Поиск текста и изображений
Задача 2: Поисковая навигация
Задача 3: Моделирование темы видео

1. Сбор и хранение видеоданных

Я собрал коллекцию из 7500 коротких видеороликов (каждый не более пяти минут), охватывающих широкий спектр тем: от политики до видеороликов о еде. Они были частично помечены хэштегами и краткими описаниями создателями контента. Большинство из них не содержали кратких описаний и были отмечены общими хэштегами.

2. Предварительная обработка видео путем создания видеорезюма.

Что мы подразумеваем под обобщением видео? Как мы знаем, видеофайлы очень богаты и содержательны. Чтобы сбалансировать вычисления и точность последующих задач, нам нужно извлечь небольшое подмножество данных из каждого видео. Это может быть текст, аудиоклипы или изображения, извлеченные из видео.

Существует несколько подходов к созданию сводной информации о видео, например выборка с шагом по времени, равномерная временная подвыборка, гауссова подвыборка для извлечения кадров. Поскольку в этой статье основное внимание уделяется применению CLIP для анализа видео, я буду использовать простой алгоритм для обобщения видео, в котором приоритет отдается извлечению кадров, которые одновременно четкие и разнообразные для каждого видео.

Чтобы правильно нарезать наше видео, алгоритм состоит из следующих шагов.

Обратите внимание, что типичное видео может быть записано с разной частотой кадров (кадров в секунду), например 30 кадров в секунду или 60 кадров в секунду. Это определит, сколько кадров вам нужно будет обработать на видео.

Решите, сколько кадров мы хотим извлечь из каждого видео. Например, мы берем по 5 кадров из каждого видео.
Делим всю таймлайн видео на 5 сегментов
Для каждого сегмента выберите изображения с наилучшей четкостью. Для этого я использовал метод вариации лапласа, реализованный в библиотеке OpenCV Python.
Для первого сегмента мы выбираем изображение с лучшим цветовым разнообразием, выполнив следующие шаги. Уменьшите разрешение изображения, затем выполните кластеризацию цветов для выделения ярких цветов, отсортируйте цвета для удобства сравнения и, наконец, сравните цвета для каждого изображения в сегменте, чтобы выбрать кадры, демонстрирующие наибольшую вариативность цветов. Разнообразие цветов гарантирует, что извлеченные нами кадры не будут повторяться, а также поможет избежать извлечения статических кадров, например черного экрана в начале и конце видео.
Для второго сегмента и далее мы повторяем шаг 4, но на этот раз мы выбираем кадр с наибольшей цветовой дисперсией по сравнению с первым сегментом. Это необходимо для того, чтобы выбранный нами кадр был разнообразным. Повторяйте этот шаг, пока не получим все 5 сегментов видео.

Результаты этого алгоритма гарантируют, что 5 кадров, извлеченных из видео, будут иметь высокую четкость и большое разнообразие функций.

Извлечение текста из извлеченных 5 кадров

Помимо изображений, для анализа видео также важны текстовые данные. Многие видео в нашей коллекции имеют субтитры, которые мы можем извлечь, чтобы предоставить дополнительную информацию в сводке видео. Чтобы извлечь текст из изображений, мы используем инструмент PaddleOCR. Чтобы гарантировать точность извлекаемого текста, мы устанавливаем порог достоверности оптического распознавания символов, чтобы отфильтровать ненадежные результаты.

Результатом этого процесса является то, что мы можем получить несколько фрагментов информации для каждого видео, включая краткое описание, текст, извлеченный с помощью OCR, хэштеги видео и изображения, извлеченные из него.

Помимо описанного метода, существуют и другие методологии создания обобщения видео, такие как платформа Towhee. Заинтересованный читатель может узнать больше по следующим ссылкам.

GitHub — towhee-io/towhee: Towhee — это фреймворк, предназначенный для нейронной обработки данных…
x2vec, Towhee — это все, что вам нужно! Towhee упрощает создание конвейеров нейронной обработки данных для приложений искусственного интеллекта. Мы…github.com

PaddleOCR — один из самых быстрых и точных многоязычных инструментов оптического распознавания символов.

GitHub — PaddlePaddle/PaddleOCR: потрясающие многоязычные наборы инструментов оптического распознавания символов на основе PaddlePaddle (практичные…
Потрясающие многоязычные наборы инструментов оптического распознавания символов на основе PaddlePaddle (практичная сверхлегкая система оптического распознавания символов, поддержка более 80 языков… github.com

Я бы также рекомендовал изучить извлечение ключевых кадров из FFmpeg в качестве альтернативы моему алгоритму. Для получения более подробной информации перейдите по следующим ссылкам.

Выбор сцены FFmpeg: извлечение iframe и обнаружение изменения сцены - 2020
поиск по сайту bogotobogo.com: извлечение одного кадра Если мы хотим извлечь только один кадр (-vframes 1 ) с…www.bogotobogo.com

Как извлечь ключевые кадры из видео с помощью FFmpeg
Чтобы получить достаточно информации из видео, нам часто необходимо извлечь видеокадры. Однако мы не хотим…jdhao.github.io

3. Пропустите видеосводку через модель CLIP.

В машинном обучении внедрение — это метод, используемый для представления входных данных, таких как слова или изображения, в виде векторов в многомерном пространстве. Встраивание фиксирует важные особенности входных данных таким образом, чтобы их могли использовать алгоритмы машинного обучения.

В этом проекте встраивание осуществляется с использованием модели CLIP без какого-либо дополнительного обучения или тонкой настройки. Модель CLIP используется для прямого преобразования описаний видео и извлеченных изображений во встраивания. Модель CLIP состоит из двух компонентов: один для текста (clip-ViT-B32-multilingual), а другой для изображений (clip-ViT-B32).

clip-ViT-B32 — это модель изображения и текста CLIP, которая отображает текст и изображения в общее векторное пространство. Он может обрабатывать как изображения, так и текстовые кодировки, но только текст на английском языке.

clip-ViT-B32-multilingual — многоязычная версия, подготовленная для текста (более чем на 50 языках) и изображений в общем плотном векторном пространстве, так что изображения и соответствующие тексты находятся близко.

Мы используем многоязычную модель для работы с разными языками (поддержка до 50+ языков). Это позволит нам создавать последующие задачи, которые могут обрабатывать разные языки. Например, ищите видео, используя текст на малайском, хинди, английском и китайском языках.

Объяснение встраивания нейронных сетей
Как глубокое обучение может представить «Войну и мир как вектор к datascience.com»

sentence-transformers/clip-ViT-B-32-multilingual-v1 · Hugging Face
Это многоязычная версия модели OpenAI CLIP-ViT-B32. Вы можете сопоставить текст (более чем на 50 языках) и изображения с…huggingface.co

4. Создайте серию последующих задач

Со всей предварительной обработкой видео, проделанной выше. В этом разделе мы рассмотрим некоторые практические применения, чтобы лучше понять возможности нашего инструмента видеоаналитики.

В первой задаче мы оценим возможности поиска нашего приложения, используя как текстовые, так и визуальные входные данные. Во второй задаче мы углубимся в скрытое пространство, создаваемое моделью CLIP, что позволит нам извлекать видео, соответствующие конкретному контексту пользователя, посредством текста и изображений. Наконец, в третьей задаче мы создадим модель темы для видео, используя модифицированную версию мультимодального BERTopic.

Задание 1. Поиск видео по тексту

Цель этой задачи — проверить производительность вложений, которые мы создали с помощью модели CLIP, путем поиска видео только на основе ввода текста. В частности, мы введем текст «Разрушенный танк на улице» и посмотрим, насколько хорошо инструмент может получить соответствующие видео из нашей коллекции.

Ввод текста: Разбитый танк на улице.

Он справился хорошо, показав результат движения танка по улице, но пропустил часть «уничтожения». Далее мы будем использовать только изображение и посмотрим, насколько хорошо будет работать приложение.

Задание 1. Поиск видео по изображению

На этот раз мы предоставляем изображение уничтоженного танка, сделанное в Интернете, которое не является частью нашей коллекции и не используется для поиска. Нашему инструменту удается идентифицировать аспект «уничтожения» во входных данных, но он с трудом извлекает видеоролики, связанные с танками. Чтобы улучшить результаты поиска, мы можем объединить ввод текста и изображения. Поступая таким образом, мы предоставляем инструменту больше информации, используя тот факт, что и текст, и изображение представлены в одинаковом скрытом пространстве. Это должно помочь нам получить больше релевантных видео из нашей коллекции.

Задача 2. Навигация по результатам поиска (исследование скрытого пространства)

Эта задача основана на word2vec, который использует арифметические свойства для управления встраиванием слов. (Пример: Король — Мужчина + Женщина = Королева). Точно так же мы хотим посмотреть, сможем ли мы использовать текстовые описания для дальнейшего описания контента, который мы хотим, чтобы наш инструмент извлекал. Это проверит арифметические свойства модели CLIP, поскольку CLIP одинаково представляет изображения и текст, мы можем использовать арифметику для обоих.

Наша цель — получить видео, предоставив некоторый контекст. В этом примере мы будем искать президента Зеленского после начала войны, отфильтровывая контент, созданный до войны. Для этого мы будем добавлять и вычитать ключевые слова к нашему входному изображению, что должно помочь нам найти соответствующий контент.

Следующие ключевые слова добавляются и вычитаются

Добавить (+) #Украина военная форма, в бронежилете и каске, усталый, грустный

Вычесть (-) Произнесение речи, галстука, костюма, улыбки

Мы успешно получили видео президента Зеленского после войны, добавляя и удаляя определенные ключевые слова к нашему исходному изображению. Добавляя контекст к изображению во время поиска, этот метод может быть полезен для получения пропагандистских видеороликов, в которых повторно используются клипы с некоторыми изменениями.

Дальнейшее расследование возвратов счетов по нашим результатам показывает, что один из аккаунтов сосредоточен на Зеленском. Почти 90% видео, опубликованных этим аккаунтом, были связаны с Зеленским. Чтобы определить намерения аккаунта, необходимо провести дополнительное расследование.

Более подробную информацию об арифметических свойствах CLIP см. в статье. https://arxiv.org/pdf/2112.03162.pdf

Объяснение Word2Vec
Объяснение интуитивного принципа Word2Vec и его реализация на Python. Арифметрические свойства встраивания слов. в сторонуdatascience.com

Показатели эффективности

MRR можно интерпретировать как вероятность того, что пользователь найдет соответствующий документ вверху результатов поиска.

MAP можно интерпретировать как среднюю релевантность документов, возвращаемых системой.

Чтобы обеспечить эффективность нашей видеоаналитики, нам необходимо оценить, насколько хорошо работает наша функция поиска (задача 2). Мы оценим производительность функции поиска при поиске текста и изображений, что включает в себя навигацию по результатам поиска. Двумя оценочными метриками являются MRR (средний обратный ранг) и MAP (средняя средняя точность).

Интеграция поиска текста и изображений — непростая задача, в первую очередь из-за сложной природы мультимодальных вложений и семантической неоднозначности. Контекстуальное значение таких слов, как «банк», может подвергаться множеству интерпретаций. Например, встраивание слова «банк» в текст может не точно соответствовать изображению, если оно относится либо к финансовому учреждению, либо к берегу реки.

Результаты нашей задачи 2: MRR@5 = 0,895 и MAP@5 = 0,857. Для MRR@5 это означает, что в среднем из 5 возвратов первый релевантный результат был найден в лучших результатах 1/0,89 = 1,12. Для MAP@5 это означает, что когда система получает 5 результатов по запросу, в среднем 85,7% этих результатов являются релевантными.

В целом, высокие оценки как для MRR@5, так и для MAP@5 указывают на то, что функция поиска эффективна для объединения поиска текста и изображений в Задании 2, несмотря на сложность объединения поиска текста и изображений.

MRR против MAP против NDCG: метрики оценки с учетом ранга и когда их использовать
Метрики оценки с учетом ранга для систем рекомендаций и когда их использовать. Medium.com

Задание 3. Модель темы видео

Мотивацией для этой задачи является поиск общего повествования автора и, если возможно, поверхностных тенденций или пропагандистских тенденций, таких как поведение, через кластеры тем с течением времени. Для решения этой задачи мы будем использовать небольшую модификацию BERTopic.

BERTopic — это метод тематического моделирования, который использует модели внедрения и c-TF-IDF для создания плотных кластеров, позволяющих легко интерпретировать темы, сохраняя при этом важные слова в описаниях тем. BERTopic в основном используется для задач НЛП, которые используются в текстовых документах.

Подход, который мы используем, похож на то, как BERTopic работает с мультимодальными данными. Вместо передачи одного изображения мы передаем среднее значение пяти заранее рассчитанных внедрений, представляющих каждый видеофайл. Это означает, что BERTopic не будет создавать встраивание из текстового описания видео. Вместо этого он попытается сгруппировать изображения на основе их вложений, а затем создать представление темы, используя предоставленное текстовое описание.

Если у вас возникли трудности с пониманием приведенного выше абзаца, возможно, вам захочется посмотреть, как работает алгоритм BERTopic. Ссылки предоставлены ниже.

Алгоритм — BERTopic
Ниже вы найдете различные типы обзоров каждого шага основного алгоритма BERTopic. Каждый последующий обзор…maartengr.github.io

Мы будем смотреть на учетную запись, которую мы обнаружили ранее, используя опубликованный ею контент для запуска модифицированного алгоритма BERTopic. В результате мы получаем 5 различных кластеров. Мы рассмотрим некоторые из них, чтобы проанализировать закономерности проводок по счетам.

Ввод: видеопубликация определенного аккаунта.

При изучении аккаунта, размещенного на видео, становится очевидным, что активность постинга аккаунта соответствует эскалации конфликтов в Украине, пик которой пришелся на март. Однако после 7 мая активность публикаций прекратилась, что совпало со снижением интенсивности конфликта.

Кластер 3 состоит из многочисленных видеороликов, снятых на улицах в ночное время. Это демонстрирует уверенность президента Зеленского в войне, поскольку он может выходить на улицу, не опасаясь приближающихся ракет или атак беспилотников со стороны России.

Основная цель контента, которым делится аккаунт, — своевременно предоставлять обновленную информацию о военной ситуации и предлагать слова утешения и поддержки народу Украины. Из этого можно сделать вывод, что аккаунт был предназначен для привлечения украинцев в социальные сети, оказания им эмоциональной поддержки и формирования чувства связи с правительством.

Почему это интересно?

Этот инструмент интересен тем, что может помочь нам получить представление о текущих тенденциях в социальных сетях. Анализируя частоту и закономерности публикаций с течением времени, мы потенциально можем выявить закономерности активности по определенным темам. Это может быть полезно для обнаружения пропагандистского контента, публикуемого ботами, которые часто повторно используют одни и те же или похожие видеопотоки. В целом, этот инструмент может дать нам лучшее понимание контента социальных сетей и того, как он распространяется с течением времени.

Не все навороты

Судя по вышеизложенным задачам, это кажется идеальным решением, поскольку мы знаем, что у всех инструментов есть свои недостатки, так каковы его ограничения?

Задача 2. Навигация по результатам поиска (исследование скрытого пространства)

Модели CLIP не научились распознавать лица. Он не может получить видео конкретного человека, который не является публичной фигурой.

Модели CLIP страдают от абстрактных или систематических задач.

Абстрактное предложение – это предложение, которое оставляет много места для интерпретации и не дает четкого представления о том, что на самом деле происходит. Пример «Красная машина, ближайшая к изображению», какое изображение вы имеете в виду? Какую точку зрения мне следует принять?

Систематическая задача – это серия логических шагов, необходимых для понимания предложения. Например, чтобы понять предложение «Меню в баре с напитком 7 небес», необходимо разбить его на четыре этапа. Для этого нужно просмотреть меню, узнать, что вы находитесь в баре, найти напиток под названием «7 небес» и собрать все это воедино.

Задание 3. Модель темы видео

Наша методика моделирования тем иногда ошибочно группирует определенные видео в одну тему. Это может быть связано с несколькими причинами

Потеря информации из текстового контента. Поскольку мы не используем текстовый контент, мы теряем некоторую информацию, которая может быть полезна для тематической модели.
Кластеризация на основе усредненных изображений теряет слишком много информации. Изображения разных сцен в видео объединяются, что затрудняет эффективную кластеризацию.
Сама тематическая модель требует проб и ошибок, чтобы получить правильное количество кластеров, которые имеют смысл для пользователя, например LDA (скрытое распределение Дирихле). Хотя существуют такие показатели, как использование показателя Perplexity или Coherence, они по-прежнему являются показателями эффективности тематической модели. Лучший способ — показать это через пользовательский интерфейс и позволить людям визуализировать их, чтобы увидеть, имеет ли эта тема смысл.

Подробное обсуждение определения правильной тематической модели можно найти здесь.

О когерентности тематических моделей · Выпуск №90 · MaartenGr/BERTopic
В настоящее время я рассчитываю когерентность бертопической модели с помощью gensim. Для этого мне нужны n_grams с каждого…github.com

Заключение

Видеоаналитика может использоваться для выявления закономерностей подозрительной активности в интернет-сообществах. Эта информация затем может быть использована для оповещения властей или принятия мер по предотвращению дальнейшего распространения дезинформации. В целом, это может быть мощным инструментом для повышения онлайн-безопасности и предотвращения распространения дезинформации, но важно использовать его ответственно и этично.

Кроме того, важно осознавать, что видеоаналитика — это лишь часть более масштабных усилий по повышению онлайн-безопасности и борьбе с распространением дезинформации. Могут также потребоваться другие меры, такие как обучение общественности тому, как выявлять дезинформацию и сообщать о ней, ужесточение законов и правил, касающихся поведения в Интернете, а также работа с технологическими компаниями над разработкой более эффективных инструментов и стратегий. Применяя многогранный подход и работая вместе, мы можем создать более безопасную и заслуживающую доверия онлайн-среду для всех.

Другие ссылки

Погружение в модели языка видения
Человеческое обучение по своей сути мультимодально, поскольку совместное использование нескольких чувств помогает нам понимать и анализировать новые…huggingface.co

Мультимодальная классификация изображений и текста
Понимание основных моделей глубокого обучения изображений и классификации текста CMA-CLIP, CLIP, CoCa и MMBT, используемых в…vaclavkosar.com

Ознакомьтесь с вакансиями, которые у нас есть в сфере ИИ и аналитика данных в CSIT.