Машинное обучение в разработке приложений для потокового видео

Говоря об индустрии разработки приложений для потокового видео, Netflix - один большой гигант наряду с« YouTube , Hulu , Amazon Prime , HBO Go и т. Д.»

Мы все знаем эти уважаемые имена в нише разработки приложений для потокового видео. Сильные маркетинговые приемы, вбрасывание огромных денег, достоверный контент, удивительное удобство в использовании - это N факторов, которые заложили прочный фундамент для этих компаний.

О разработке приложения Netflix для потокового видео и о том, как оно работает

Netflix не нуждается в представлении в современном мире. История успеха Netflix известна тем, что она обслуживает более 125 миллионов пользователей в более чем 190 странах. С более чем 5 тысячами телешоу и фильмов для показа он становится палкой о двух концах для Netflix. Он должен быть уверен, что пользователи не станут жертвами паралича выбора. С учетом того, что на платформе транслируется более 250 миллионов часов видео в день, поддерживать интересы компании - непростая задача. В таком масштабе для предоставления качественных развлечений каждому пользователю требуется гораздо больше, чем просто предоставление приложения для потокового онлайн-видео для просмотра любимых шоу.

И именно поэтому Netflix использует возможности искусственного интеллекта и машинного обучения, чтобы обеспечить непревзойденный UX-дизайн при разработке своих приложений для потокового видео.

В Netflix мы используем большие данные для глубокого анализа и алгоритмов прогнозирования, чтобы обеспечить максимальное удобство для наших участников. Хорошо известным примером этого является персонализированный фильм и рекомендации, соответствующие вкусам каждого участника , - говорит Нирмал Говинд , директор студии производства и обработки потоковых данных в Netflix.

Для непосвященных, вот чрезмерное упрощение того, как Netflix передает контент зрителям по всему миру и управляет сценой разработки развлекательных приложений. Чтобы узнать, как получить доступ к разработке аналогичных приложений Netflix, изучить особенности и понять бизнес-модель, перейдите на связанную страницу.

Взгляд изнутри на машинное обучение в разработке приложений для потокового видео Netflix

Netflix настроил различные сети доставки контента (CDN) по всему миру. Эти CDN берут исходные данные (включая весь веб-сайт и носители) и копируют их на сотни серверов, разбросанных по всему миру. Это означает, что если кто-то из Сиднея подключается к Netflix, CDN, вместо подключения к главному серверу в США он подключается к ближайшему серверу в Австралии. Это значительно сокращает время задержки - время, необходимое для отправки запроса и получения ответа. Опять же, это чрезмерное упрощение чего-то очень сложного, что входит в их разработку приложений для потокового видео.

Итак, почему мы обсуждали, как Netflix транслирует контент по всему миру?

Когда мы говорим обо всем «земном шаре», следует помнить об одном: пользователи на всех континентах ведут себя и взаимодействуют по-разному, особенно с точки зрения предпочтений. Никакие два отдельных пользователя не будут смотреть одинаковый контент одновременно.

Чайтанья Эканадхам, менеджер по науке о данных в Netflix, говорит: Обеспечение качественной потоковой передачи для этой глобальной аудитории - огромная техническая задача. Большая часть этого - инженерные усилия, необходимые для установки и обслуживания серверов по всему миру, а также алгоритмы потоковой передачи контента с этих серверов на устройства наших подписчиков .

Это астрономическая задача, которую не могут решить одни люди. Это требует внимательного наблюдения за моделями просмотра пользователем.

Он также добавляет: «По мере того, как мы быстро расширяемся до аудитории с разнообразным поведением при просмотре, работая в сетях и на устройствах с самыми разными возможностями, универсальное решение для потокового видео становится все более неоптимальным».

Давайте заглянем под капот и посмотрим, как Netflix с помощью машинного обучения повышает удобство разработки приложений для потокового видео.

Netflix имеет миллионы индивидуальных профилей пользователей. Каждый просмотр профиля сильно отличается. «Из этих профилей мы видим следующие типы данных: что люди смотрят, что они смотрят после, что они смотрят раньше, что они смотрели год назад, что они смотрели недавно и в какое время суток». Говорит Тодд Йеллин, вице-президент Netflix по продуктовым инновациям.

Эти данные составляют первую основу для изучения поведения пользователя.

Затем есть штат штатных и внештатных зрителей, которые каждую минуту смотрят шоу и фильмы и снабжают машину соответствующими тегами. Эти теги различаются в зависимости от шоу. Будь то фильм, действие которого происходит в космосе, или о средневековье, эти люди из персонала соответственно маркируют контент.

«Мы берем все эти теги и данные о поведении пользователей, а затем используем очень сложные алгоритмы машинного обучения, которые выясняют, что является наиболее важным. Насколько это важно, если покупатель что-то смотрел вчера? Должно ли это считаться вдвое или в десять раз больше по сравнению с тем, что они смотрели год назад? Как насчет месяца назад? Как насчет того, чтобы они посмотрели десять минут контента и отказались от него, или они просмотрели его за две ночи? Как нам все это взвесить? Вот тут-то и появляется машинное обучение. Эти три вещи создают для нас «сообщества вкусов» по всему миру. Речь идет о людях, которые смотрят то же, что и вы ». - говорит Тодд Йеллин.

Netflix делит вводимые пользователем данные на 2 категории: неявные и явные. «Явные данные - это то, что вы буквально говорите нам: вы даете The Crown большой палец вверх, мы понимаем», - объясняет Йеллин. «Неявные данные - это на самом деле поведенческие данные. Вы не сказали нам прямо: «Мне понравилась Несокрушимая Кимми Шмидт», вы просто съели это и посмотрели его за две ночи, так что мы понимаем это с точки зрения поведения. Большинство полезных данных неявно ».

Это помогает представить объяснение выбора строк с использованием неявных жанровых предпочтений участника - недавних игр, оценок и других взаимодействий - или явных отзывов, полученных в ходе нашего опроса о вкусовых предпочтениях.

Таргетинг и персонализация при разработке приложений для потокового видео

Вот пример того, как разработка приложений для потокового видео использует все эти данные для нацеливания на определенный сегмент. Мы также заинтересованы в моделях, которые учитывают, как языки, доступные для звука и субтитров каждого видео, соответствуют языкам, которые каждый участник во всем мире, вероятно, будет комфортно использовать при выработке рекомендаций, например, если участник только удобно (на основе явных и неявных данных) с тайским, и мы думаем, что хотели бы посмотреть «Карточный домик, но у нас нет тайского звука или субтитров для него, тогда, возможно, нам не стоит рекомендовать Карточный домик для этого члену, или, если у нас есть Карточный домик на тайском языке, мы должны выделить этот вариант языка для члена, рекомендуя Карточный домик.

Netflix имеет систему с сильной положительной обратной связью. Что он делает, так это то, что видео, с которыми участники активно взаимодействуют, рекомендуются многим участникам на основе определенных параметров, что приводит к активному взаимодействию с этими видео и т. Д.

Объединение всех данных и их передача в машину дает наилучшие возможные результаты. Йеллин завершает свое объяснение на примере «Озарка» - драматического сериала, в котором главный герой - семьянин, занимающийся отмыванием денег, связанный с мексиканским наркокартелем, на который он работает: «Мы обнаружили, что люди, которые склонны смотреть« Черный список »и «Карточный домик» больше похож на «Озарк». Но другой тип людей, которым понравится «Озарк», - это фанат «Нарко» и «Эль Чапо», а также других драматических и документальных фильмов о наркокартелях. Не то чтобы мы могли догадаться об этом заранее, - сказал Йеллин. «Мы просто отслеживаем, какие шоу сгруппированы вместе. Кто бы мог подумать, что «Джессика Джонс» и «Кимми Шмидт» объединятся? »

Машинное обучение возможно только тогда, когда у вас достаточно данных для ввода в компьютер. Без большого количества данных машина не смогла бы вычислить желаемый результат. Благодаря огромному количеству данных, полученных от пользователей и персонала, эти умные алгоритмы обрабатывают и анализируют данные, чтобы вычислить ближайший возможный результат.

Чтобы дать небольшое представление о том, что это за алгоритмы и какие методы машинного обучения используются при разработке приложений потокового видео Netflix, вот список всех методов, которые работают под капотом. Чтобы не показаться пугающим, это упрощенный список всех методов. Не волнуйтесь, не нужно их запоминать, чтобы все понимать. Это просто для того, чтобы показать, как мы чрезмерно упростили весь процесс, чтобы непрофессионал мог держать рабочий механизм в руках. Нижеупомянутые методы представляют собой комплексные принципы, на которых работает система рекомендаций Netflix.

Линейная регрессия
Логистическая регрессия
Эластичные сетки
Разложение по сингулярным значениям
Ограниченные машины Больцмана
Цепи Маркова
Скрытое размещение Дирихле
Деревья решений с градиентным усилением
Случайные леса

В заключение, вот список всех параметров, по которым Netflix классифицирует свою систему рекомендаций.

Персонализированный рейтинг видео: PVR

В зависимости от возможностей устройства типичная домашняя страница Netflix имеет около 40 строк.

Вверху мы видим строку под названием Trending Now, контент под этой строкой был сгенерирован алгоритмом PVR и отличается для разных пользователей.

Рейтинг видео Top-N

Этот видеоалгоритм отображает пользователей с лучшими выборами, персонализированными для них системой. Средство ранжирования Top N оптимизируется и оценивается с использованием показателей и алгоритмов, которые учитывают только заголовок ранжирования каталога, создаваемого алгоритмом, а не ранжирование всего каталога.

Видео-видео сходство

У Netflix есть еще одна строка с названием «Потому что вы смотрели» (BYW). Эта строка привязывает рекомендации к одному видео, просмотренному пользователем. Несмотря на то, что рейтинг, предоставляемый алгоритмом сходства видео-видео, не является персонализированным, выбор того, какие строки BYW будут отображаться на домашней странице, персонализируется алгоритмами.

Доказательство

Чтобы объяснить это просто, алгоритмы доказательства принимают во внимание, следует ли показать, что определенный фильм выиграл Оскар, или вместо этого показать участнику, что фильм похож на другое видео, недавно просмотренное этим участником; они также решают, какое фоновое изображение из нескольких версий использовать для наилучшей поддержки данной рекомендации. Чтобы подтвердить это, посмотрите на изображения ниже.

Обратите внимание, как на обоих этих изображениях изображение для шоу «Карточный домик» отличается. Будь то изображение основного баннера или маленькое изображение для строки. Все эти изображения обрабатываются алгоритмом машинного обучения и отображаются соответствующим образом.

Вывод

С большой властью приходит большая ответственность, а большая ответственность требует больших технологий (в сегодняшних терминах). Разработка приложения Netflix для потоковой передачи видео должна управлять и доставлять колоссальный объем данных, а также контент. С развитием технологий очевидно, что они истощают мощь машинного обучения, чтобы всегда двигаться вперед на рынке, где энтропия доминирует.

Первоначально опубликовано на https://www.trootech.com 1 августа 2018 г.

Машинное обучение в разработке приложений для потокового видео - разумный подход, инициированный Netflix