Обработка видео в Fynd

VogueAI: Авто мода в видео

Автоматизированный конвейер для извлечения уникальной моды из любого видеоисточника

Вступление

В Fynd мы сосредоточены на создании моделей машинного обучения, которые приносят пользу нашему обществу. Одним из таких продуктов является Fynd Trak, который помогает розничным торговцам и владельцам магазинов фиксировать утраченные идеи с помощью камер видеонаблюдения. Видеопотоки, поступающие из маленьких и больших магазинов, огромны, и для их обработки нам нужна была платформа, позволяющая работать в большом масштабе. Наши инженеры создали платформу анализа видео для обработки больших видеофайлов и их обработки для извлечения полезной информации.

Мы думали об использовании этой же платформы для других случаев использования, когда источник данных бесконечен. Первые идеи, которые пришли нам в голову, были: платформы YouTube и OTT, поскольку это огромные источники видео, которые растут с каждым днем. Пример использования, который мы рассмотрим сегодня, - «Мода в видео».

Мода в видео

С каждым видео, добавленным на эти большие платформы, миру вводится новая мода. И эта мода иногда превращается в тренд, а иногда уходит незамеченной.

Традиционно модные блогеры и журналисты освещают новую моду в Интернете, а создатели контента YouTube собирают моду из популярных сериалов / фильмов. Наше решение на основе искусственного интеллекта предназначено для решения этой задачи полностью автоматизированным способом. Для автоматизации мы создали конвейер различных современных моделей машинного обучения для сбора, фильтрации и извлечения уникальной моды из любого видео с помощью нашей платформы видеоанализа.

Мы использовали «Эмили в Париже» от Netflix в качестве демонстрационной серии для этого проекта. Нашему трубопроводу удалось выделить уникальные модные тенденции на протяжении 10 эпизодов без вмешательства человека.

Платформа

В одном сезоне среднего телесериала около 10 серий, каждая из которых длится около 30 минут. Анализировать эти многочисленные эпизоды и выявлять каждую новую модную тенденцию, встреченную в них вручную, - очень утомительная и трудоемкая работа. Для этого мы используем нашу платформу обработки машинного обучения на основе DAG. DAG означает «Направленные ациклические графы», в которых каждый узел представляет разные процессы (модель машинного обучения, алгоритм CV и т. Д.). Конвейеры используются для извлечения полезных метаданных из каждого кадра.

Наша платформа видеоанализа выполняет DAG моделей на основе конфигурации в распределенном масштабе, что значительно сокращает время обработки.

Давайте пройдемся по этапам этого конвейера.

Шаг 1. Извлечение метаданных 📓

В каждом кадре видео полно информации, которая может быть так или иначе полезна. Люди могут очень эффективно обрабатывать большие объемы данных из непрерывного источника движущихся изображений (видео). В то время как машина все еще пытается делать это с такой высокой эффективностью. Итак, мы выбрали несколько метаинформации для извлечения из каждого кадра. Эти метаданные используются для фильтрации, агрегирования, ранжирования и принятия решений на всем протяжении конвейера.

В среднем сезон сериала из 10 серий может содержать около 5–6 миллионов кадров. Чтобы обработать такой объем данных, наш фреймворк разбивает видео на небольшие фрагменты. Затем эти небольшие фрагменты данных могут обрабатываться параллельно.

Контекстные метаданные

  • Обнаружение человека: чтобы обнаружить присутствие человека в кадре, отслеживать движение и извлекать вложения визуальных элементов.
  • Обнаружение и распознавание лиц: обнаруживайте и идентифицируйте символ, присутствующий в кадре, с помощью данных преобразования IMDB. Эти данные помогают нам отслеживать главных героев видео.
  • Определение возраста и пола: дополнительная мета, полезная для агрегирования по демографическим данным.
  • Определение позы тела: ключевые точки позы тела позволяют нам оценить положение объекта в кадре.

Шаг 2: фильтрация кадров ✅

Не все кадры, представленные в ролике, одинаково нравятся зрителям. Некоторые сцены привлекают больше внимания, чем другие. Показ платья Эмили на размытом изображении с видом сбоку и слабой позой определенно привлечет меньше внимания, по сравнению с резким качественным изображением с лихой позой.

Вот почему мы отфильтровываем менее актуальные кадры и очищаем наши данные. Эта фильтрация выполняется на основе различных критериев: оценка позы тела, актерский состав и ориентация лица, но не ограничиваясь ими. Благодаря нашей платформе обработки видео на основе конфигурации мы можем добавлять любое количество фильтров на ходу.

  • Актер. Людям обычно нравится следовать тенденциям, установленным ведущими исполнителями в сериале / фильме. Поэтому мы фильтруем кадры, содержащие только выбранные символы, и пропускаем остальные.
  • Фильтрация позы тела. Отфильтруйте кадры, в которых персонаж находится в вертикальной позе лицом вперед, с максимальной занятостью кадра. Мы также использовали дополнительные углы и ориентации на основе конечностей, чтобы выбрать лучшие кадры-кандидаты.
  • Ориентация лица: фильтруйте кадры на основе ориентации лица, анализируя ключевые точки лица.

Шаг 3: кластеризация похожих изображений 👪

Отфильтрованные кадры затем группируются на основе визуальных характеристик. Таким образом, у нас есть фрагменты видео, состоящие из уникальной моды, встречающейся на протяжении всего видео.

Шаг 3. Ранжирование изображений 🔝

Теперь у нас есть несколько кластеров, каждый с уникальной модой, но с другой позой, фоном и условиями освещения. Наш следующий шаг - выбрать среди них лучший. Затем изображения проходят через алгоритм ранжирования, чтобы окончательно определить лучшего кандидата для использования.

  • Обнаружение размытия: обнаружение размытости при движении, присутствующей в различных изображениях-кандидатах.
  • Оценка качества изображения (IQA): оценка качества изображения на основе DL для оценки каждого изображения.

Каждое верхнее изображение представляет собой окончательную уникальную моду, извлеченную из видео.

Шаг 4: Извлечение модных атрибутов 👗

Теперь, когда у нас есть вся мода из сериала / фильма, мы можем извлечь больше информации. Мы использовали наш экстрактор модных атрибутов уровня 1 категории. Сюда можно подключить любые комбинированные модели, чтобы получить больше от моды.

  • Разбор ткани: чтобы определить типы одежды, которую носит персонаж.
  • Цветовая палитра: мы можем получить полную цветовую палитру, взятую из различных тканей, которые носит персонаж.

Шаг 5: Создание видео 🎥

Эффективная подача информации жизненно важна, и короткий видеоролик на YouTube - всегда первый выход. Мы также автоматизировали этот этап создания видео, сэкономив немного больше человеческой работы. MoviePy и Gizeh - две библиотеки Python, которые очень удобны при создании всех видов анимации. Мы разработали фон из вращающихся линий с цветами, вдохновленными извлеченными цветовыми палитрами.

Другие варианты использования

  • Интерактивные места для покупок: новый способ сделать покупки в видео! Извлеченная мода теперь может напрямую направлять пользователей в каталог покупок, увеличивая доступ к товарам.
  • Поиск похожих модных вещей. Зрители могут искать похожие модные подарки в Интернете.
  • Размещение рекламы In-Video. Мы создали в видео кластеры, в которых мода меняется. Платформы могут использовать это для вставки рекламы между сменой сцены после изучения дополнительных аспектов, таких как демография персонажа и эмоции.
  • Создание сводки видео: создание краткого обзора серии / фильма и автоматическое создание подписей к событиям.
  • Узнаваемость бренда. Отслеживайте узнаваемость бренда и время просмотра на экране на протяжении всего видео.

Заключение

В этом блоге мы представили обзор того, как мы использовали нашу платформу видеоанализа для создания настраиваемых рабочих процессов различных современных моделей машинного обучения и алгоритмов компьютерного зрения для создания конвейера, специально для нашего случая использования: Извлечение моды из видео. Платформы OTT / создатели контента / модные блоггеры могут использовать этот конвейер для автоматизации своей работы и составления отчетов о модных тенденциях, что позволяет сэкономить много времени, затрачиваемого вручную. Мы можем повысить ценность этого отчета / видео, добавив пользовательские модели на любом этапе конвейера.
В ближайшее время мы опубликуем подробный блог о том, как работает платформа, так что следите за обновлениями!

Команда

Команда Fynd Trak отлично провела время, изучая и внедряя различные методологии видеоаналитики. Мы стремились интерпретировать взаимодействие и взаимодействие с покупателями в магазинах. Результат наших экспериментов, Fynd Trak, позволяет использовать аналитику в автономной среде, чтобы понять клиентов и оптимизировать конверсию и продажи в магазине.

Все модели ML были созданы в компании Fynd.

Чтобы узнать, как мы улучшили нашу модель обнаружения людей для видеонаблюдения, вы можете прочитать: Как повысить точность обнаружения объектов за счет понимания данных.

Также загляните на нашу платформу дополненной реальности GlamAR, чтобы безупречно примерить красоту и макияж:

Чтобы узнать больше о нашем исследовании, посетите нашу Страницу исследований.

Заявление об ограничении ответственности. Мы используем серию фильмов "Эмили в Париже", чтобы продемонстрировать наши технологии, и у нас нет никаких цифровых прав / лицензий на распространение этого видео.