Вы любите смотреть фильмы? Вы когда-нибудь чувствовали, что ваши рекомендации по Netflix или аналогичным потоковым сервисам приелись? Представляю вам «WatchNext». Это сайт с рекомендациями фильмов, но он сильно отличается от существующих. Как? Вот о чем блог.

Сначала давайте поговорим о проблемах, с которыми вы сталкиваетесь при использовании обычных систем рекомендаций, которые вы найдете в Интернете, и о проблемах на сайтах потокового вещания.

Большинство фильмов доступны не на всех потоковых платформах. Если вы не очень богаты или у вас нет чего-то вроде Amazon Fire TV Stick, я уверен, что у вас нет аккаунта на всех из них. У большинства из нас нет даже единой учетной записи.

Другая проблема заключается в том, что большинство популярных, наиболее популярных и совместных рекомендаций основаны на простом "большом пальце вверх" / "большом пальце вниз" или на числовом рейтинге. Мы действительно не можем определить, какой фильм лучше, по количеству положительных отзывов.

Пользователь Reddit точно сказал: «Проблема с большими пальцами вверх / вниз в том, что теперь нет абсолютно никакой разницы между Я полагаю, я не ненавидел этот фильм и Это лучший фильм, который я когда-либо видел в своей жизни, и я хочу видеть больше похожего на него ".

Также весьма вероятно, что у актера или режиссера была огромная фанатская база, которая смотрела этот фильм, и совершенно очевидно, что они поставят ему оценку, независимо от того, насколько плохой была история. Проблема с числовым рейтингом в том, что он относительный. То, что может быть 7 баллов для одного пользователя, может быть 5 для меня. Это зависит от ожиданий человека. Также очень сложно и запутанно оценивать фильм цифрами.

Другая проблема с общими системами рекомендаций заключается в том, что они обычно не рекомендуют менее популярные или популярные фильмы.

«Документальным фильмам обычно трудно привлечь столько же внимания, как и к боевикам и фэнтези, таким как Игра престолов, и то же самое можно сказать об исторических драмах», - пишет The Economist.

То же самое и с фильмами. Почти все из нас не знают об удивительных фильмах с лучшими сюжетами просто потому, что они не были популярными, в них не участвовали известные актеры / режиссеры и, что наиболее важно, Netflix не рекомендовал их.

Теперь, когда я изложил проблемы, я и моя команда планируем их решать следующим образом.

Веб-сайт спросит пользователей, к каким потоковым сервисам у них есть доступ, и на основе сделанного выбора фильмы будут рекомендованы соответственно. Не волнуйтесь, если у вас нет учетной записи, всегда есть Torrent (основная база данных для всех фильмов * w ink *), который мы включили в параметры . Итак, теперь вам будут доступны только рекомендованные фильмы, к которым у вас есть доступ.

Чтобы решить проблему с рейтингом, мы применяем анализ настроений к обзорам фильмов IMDb и обзорам с различных других веб-сайтов для каждого фильма. Оценка средней полярности всех обзоров (насколько плохой или хороший отзыв) для каждого фильма добавляется к рейтингу фильма для получения нормализованной оценки. Эта оценка фильма будет использоваться для их ранжирования.

Чтобы включить менее известные фильмы, будет список, в котором пользователю будут рекомендованы фильмы с меньшим количеством зрителей и более высокой оценкой. Это будет основано на жанре и типе фильмов, которые смотрит пользователь, или может быть полностью случайным, по желанию пользователя.

Оставшаяся часть рекомендательного сайта будет работать как обычные. Фильмы будут рекомендованы на основе популярности (на основе наибольшего количества просмотров и оценки фильмов), совместной работы и фильтрации на основе содержимого. Также будет присутствовать возможность указать языковые и возрастные предпочтения. Фильтрация на основе контента будет основана на сюжете, режиссере и главном действующем лице и будет выполняться с использованием косинусного сходства. Совместная фильтрация будет основана на схожих пользователях, которые будут определяться с использованием схожих моделей просмотра, возраста, региона и т. Д.

На этом я завершаю этот блог. Сайт все еще находится в разработке. Как только это будет сделано, я включу технические подробности о моделях, наборах данных и коде в свой следующий блог. А пока прощай!