AVA: искусство и наука обнаружения изображений в Netflix

Авторы - Мэдлин, Лорен, Борис, Тим, Парф, Юджин и Апурва.

Вступление

В Netflix команды разработчиков Content Platform и Global Product Creative знают, что изображения играют невероятно важную роль в том, как зрители находят новые шоу и фильмы для просмотра. Мы гордимся тем, что обнаруживаем уникальные элементы истории, которые объединяют нашу аудиторию с различными персонажами и сюжетными линиями. По мере того, как наш список оригинального контента продолжает расширяться, перед нашими техническими экспертами стоит задача найти новые способы масштабирования наших ресурсов и избавить наших креативщиков от утомительных и постоянно растущих требований цифрового мерчендайзинга. Один из способов сделать это - собрать статические кадры изображений непосредственно из наших исходных видео, чтобы обеспечить более гибкий источник необработанных изображений.

Бизнес-кейс

Кадры из мерчандайзинга - это статические видеокадры, взятые непосредственно из исходного видеоконтента, используемого для расширения охвата заголовка в сервисе Netflix. В одном часовом эпизоде Stranger Things содержится почти 86 000 статических видеокадров.

Традиционно эти мерчандайзинговые кадры выбираются кураторами или редакторами-людьми и требуют глубоких знаний исходного контента, который они предназначены для представления. Благодаря A / B-тестированию мы знаем, что можем эффективно увеличить количество просмотров ожидаемыми и неожиданными группами аудитории, исследуя как можно больше представлений названия. Когда дело доходит до ключевого искусства заголовка, нам нравится тестировать множество художественных представлений заголовка, чтобы найти правильное произведение для нужной аудитории. Несмотря на то, что это дает прекрасную возможность для инноваций и тестирования, одновременно возникают очень сложные ожидания по масштабированию этого опыта для каждой игры в нашем растущем глобальном каталоге.

AVA

AVA - это набор инструментов и алгоритмов, предназначенных для отображения высококачественных изображений из видео в нашем сервисе. Один сезон среднего телешоу (около 10 серий) содержит почти 9 миллионов кадров. Просить творческих редакторов эффективно отсеивать это количество кадров видео, чтобы определить один кадр, который привлечет внимание аудитории, утомительно и неэффективно. Мы решили создать инструмент, который быстро и эффективно определяет, какие кадры являются лучшими моментами для представления заголовка в сервисе Netflix.

Для достижения этой цели мы сначала разработали объективные сигналы, которые мы можем измерить для каждого кадра видео с помощью аннотаций кадров. В результате мы можем собрать эффективное представление каждого кадра видео. Впоследствии мы создали алгоритмы ранжирования, которые позволяют нам ранжировать подмножество кадров, отвечающее эстетическим, творческим целям и задачам разнообразия, чтобы точно представлять контент для различных полотен нашего продукта.

Аннотация кадра

В рамках нашего конвейера автоматизации мы обрабатываем и аннотируем множество различных переменных для каждого отдельного кадра видео, чтобы лучше понять, что он содержит, и понять, почему это важно или не важно для истории. Чтобы масштабироваться по горизонтали и иметь предсказуемый SLA для растущего каталога контента, мы использовали фреймворк Archer для более эффективной обработки наших видео. Арчер позволил нам разделить видео на куски меньшего размера, каждый из которых можно было обрабатывать параллельно. Это позволило нам масштабироваться, повысив эффективность наших конвейеров обработки видео и позволив нам интегрировать все больше и больше алгоритмов анализа контента в наши наборы инструментов.

Каждый кадр видео в фрагменте контента обрабатывается с помощью серии алгоритмов компьютерного зрения для сбора объективных метаданных кадра, скрытого представления кадра, а также некоторых контекстных метаданных, содержащихся в этих кадрах. Свойства аннотации, которые мы обрабатываем и применяем к нашим видеокадрам, можно примерно сгруппировать в 3 основные категории:

Визуальные метаданные

Обычно эти свойства объективны, измеримы и в основном содержатся на уровне пикселей. Некоторые примеры визуальных свойств - яркость, цвет, контраст и размытие при движении.

Контекстные метаданные

Контекстные метаданные состоят из комбинации элементов, которые объединяются для извлечения смысла из действий или движения актеров, объектов и камеры в кадре. Некоторые примеры включают;

Распознавание лиц с отслеживанием ориентиров на лицах, оценкой позы и анализом настроений - это позволяет нам оценивать позу и настроение объектов в кадре.
Оценка движения - это позволяет нам оценить количество движения (как движение камеры, так и движение объекта), содержащееся в конкретном кадре. Это позволяет нам контролировать такие элементы, как размытость при движении, а также определять движение камеры, которое обеспечивает получение убедительных неподвижных изображений.
Идентификация снимка камерой (например, снимок крупным планом или снимок тележки). Это дает представление о намерениях оператора, позволяя нам быстро определять и отображать стилистические варианты камеры, которые дают представление о настроении, тоне и жанр названия.
Обнаружение объектов. Обнаружение реквизита и сегментация анимированных объектов позволяют нам приписывать важность нечеловеческим объектам в кадре.

Метаданные композиции

Метаданные композиции - это особый набор эвристических характеристик, которые мы определили и определили на основе некоторых основных принципов фотографии, кинематографии и визуально-эстетического дизайна. Некоторые примеры композиции: правило трети, глубина резкости и симметрия.

Рейтинг изображений

После того, как мы обработали и аннотировали каждый кадр в данном видео, следующим шагом будет выявление «лучших» кандидатов изображений из этих кадров с помощью автоматизированного конвейера графических изображений. Таким образом, когда наши творческие группы готовы начать работу над частью контента, им автоматически предоставляется набор изображений высокого качества на выбор. Ниже мы опишем некоторые ключевые элементы, которые мы используем для создания лучших изображений для данного заголовка.

Актеры

Актеры играют очень важную роль в художественном творчестве. Один из способов определить ключевого персонажа для данного эпизода - использовать комбинацию кластеризации лиц и распознавания актеров для определения приоритета главных героев и снижения приоритета второстепенных персонажей или статистов. Для этого мы обучили модель глубокого обучения отслеживать сходство лиц всех подходящих кадров-кандидатов, помеченных аннотациями кадров, до поверхности и ранжировать основных действующих лиц данного названия, ничего не зная об актерах.

Помимо актерского состава, мы также принимаем во внимание позу, лицевые ориентиры и общее положение персонажей для данного актера.

Разнообразие кадров

Творческое и визуальное разнообразие - это в высшей степени субъективная дисциплина, поскольку существует множество различных способов восприятия и определения разнообразия в образах. В контексте этого решения под разнообразием изображений, в частности, понимается способность алгоритмов улавливать эвристические отклонения, которые естественным образом возникают в одном фильме или эпизоде. Таким образом, мы надеемся предоставить дизайнерам и креативщикам масштабируемый механизм, позволяющий быстро понять, какие визуальные элементы наиболее репрезентативны для заголовка, а какие - искажают заголовок. Некоторые из визуальных эвристических переменных, которые мы включили в AVA для отображения разнообразного изображения, установленного для заголовка, включают такие элементы, как типы снимков камерой (длинный или средний снимок), визуальное сходство (правило третей, яркость, контраст), цвет (наиболее заметные цвета) и карты значимости (для определения отрицательного пространства и сложности). Комбинируя эти эвристические переменные, мы можем эффективно кластеризовать кадры изображений на основе настраиваемого вектора для разнообразия. Кроме того, объединяя несколько векторов, мы можем построить индекс разнообразия, по которому можно оценивать все изображения-кандидаты для данного эпизода или фильма.

Фильтры по срокам погашения

По причинам, связанным с чувствительностью контента и зрелостью аудитории, нам также необходимо было исключить фреймы, содержащие вредоносные или оскорбительные элементы. Примеры критериев исключения из редакции: секс / нагота, текст, логотипы / несанкционированный брендинг и насилие / кровопролитие. Чтобы отменить приоритет фреймов, содержащих эти элементы, мы включили вероятность каждой из этих переменных в качестве векторов, что позволило нам количественно оценить и, в конечном итоге, присвоить этим фреймам более низкий балл.

Мы дополнительно включили такие элементы, как жанр заголовка, формат контента, рейтинг зрелости и т. Д., В качестве второстепенных элементов или второстепенных функций и в качестве обратной связи для модели для прогнозирования ранжирования.

Заключение

В этом техническом блоге мы представили обзор нашего уникального подхода к отображению значимых изображений из видео и предоставления нашим творческим командам возможности создавать потрясающие произведения искусства каждый день. AVA - это набор инструментов и алгоритмов, включающих ключевые пересечения компьютерного зрения в сочетании с основными принципами кинопроизводства и редактирования фотографий.

Следите за обновлениями в следующем блоге, в котором мы расскажем о программной композиции графических изображений - новом захватывающем решении, которое отвечает за большую часть иллюстраций, которые вы видите сегодня в сервисе Netflix!

Спасибо.

Если у вас есть отличные или новаторские идеи, присоединяйтесь к нам в команде разработчиков Content Platform!