Самым неожиданным событием начала 2016 года стал внезапный запуск Netflix на 130 новых рынках, в том числе и у меня в лесу. Этот факт сам по себе был большим событием, но технологический ракурс интересовал меня не меньше, чем развлекательный.

Я не большой поклонник больших данных, искусственного интеллекта и машинного обучения, но я довольно заинтересован в этой области, хотя и на очень поверхностном уровне. Я помню, как читал, насколько умными были некоторые технологии Netflix еще во времена их DVD, и я ожидал многого от их алгоритмов рекомендаций в недавно доступном (для меня) сервисе.

Это шутка?

К моему удивлению, то, что я увидел, было… я даже не знаю, как это описать. Я прошел их процесс инициации, и мне были представлены списки рекомендаций, которые включали следующие жемчужины:

Я посмеялся над этим и списал это на ограниченный каталог, доступный здесь. И это было бы так.

Но два дня назад в техническом блоге Netflix появился пост в блоге, рекламирующий их систему рекомендаций в этом дивном новом глобальном мире.

В этом посте мы расскажем о четырех наиболее интересных проблемах, с которыми мы столкнулись при глобальном использовании наших алгоритмов, и, что наиболее важно, о том, как это улучшило нашу способность знакомить участников со всего мира с историями, которые им понравятся.

Действительно!? Вышеприведенные скриншоты выглядят как успехи системы рекомендаций? Я только что проверил, те же рекомендации все еще там. Так что это не значит, что двигатель еще не был запущен или не обучен во время запуска.

Не поймите меня неправильно, я действительно ценю проблемы, с которыми сталкиваются разработчики и специалисты по данным в Netflix, учитывая различия в культуре, доступности каталогов и размерах выборки. Но мы должны быть честными — это ни хрена не работает!

Лучший рекомендательный движок

Вы знаете, у кого лучший механизм рекомендаций, который никто не смог превзойти более чем за 15 лет? Пандора! Ну, по крайней мере, когда я мог использовать его отсюда в начале 2000-х. И знаете, почему он лучший? Потому что им руководят люди! И знаете, что было бы легче классифицировать, используя ту же методологию, чем музыку? Правильно — кино! Если не за что, то просто потому, что их меньше.

А затем вы создаете всю магию машинного обучения поверх этого для точной настройки. Ни один здравомыслящий человек не может прийти к выводу, что «Мы — Миллеры» — это как «Во все тяжкие». Только «ИИ» может.

Механизм рекомендаций «все еще лучше, чем это»

Я не знаю, будет ли создание чего-то вроде Pandora для фильмов нарушением каких-то патентов или это слишком сложно, но я знаю, что все же даст лучшие результаты — придерживаться чертовых метаданных. Жанры фильмов не идеальны, но их использование не поместит Очень страшное кино в раздел фильмов ужасов. Я только что проверил IMDb, там написано комедия (и больше ничего).

Тупик

Мой опыт работы с различными сервисами подсказывает мне, что проще всего начать с создания рекомендательных систем на основе социальных сигналов, но это почти всегда приводит к тупику. Возможно, подростки выбирают друзей на основе музыки, которую они слушают, но не я.

Я самостоятельный человек и слушаю ту музыку, которая мне нравится. Я не расстаюсь с друзьями из-за того, что они слушают Джастина Бибера (ну может ради Бибера слушаю), мне все равно, какие книги они читают массово (привет GoodReads), а у меня свой извращенный вкус в кино .

Так что, пожалуйста, специалисты по обработке и анализу данных, основывайте свою систему рекомендаций на мне и используйте все остальное только для того, чтобы оживить ее.