Три проблемы для систем рекомендаций

Автор Крис Рафаэль

Системы рекомендаций приносят большой доход Amazon, Netflix и Facebook, но проблемы связаны с зависимостью от данных, доверием и отсутствием инноваций.

Почти все, что вы читаете, видите или покупаете в Интернете в наши дни, было выбрано алгоритмом. Сюда входят новостные статьи в Google, обновления статуса в Facebook, товары, показанные на Amazon, фильмы на Netflix или Hulu или маршруты на картах Google.

Алгоритмы — это большой бизнес. Сообщается, что алгоритм Netflix приносит компании 1 миллиард долларов в год, заставляя зрителей смотреть, чтобы они не удалили свои учетные записи. В то же время Amazon, разместивший рекомендации по продуктам на своем сайте, в прошлом году продемонстрировал рост чистых продаж примерно на 20 миллиардов долларов до 107 миллиардов долларов. А реклама в Facebook, в которой используется алгоритм сопоставления рекламы с активностью пользователей, приносила 80 процентов дохода компании от рекламы в четвертом квартале 2015 года.

Подходы системы рекомендаций

По данным IBM, большинство рекомендательных систем строятся на двух основных подходах:

Совместная фильтрация использует данные от клиента и других пользователей со схожими характеристиками, чтобы получить рекомендацию. Amazon, например, может рекомендовать определенные продукты на основе того, что вы ранее покупали или просматривали, а также того, что другие пользователи покупали или просматривали в определенной категории продуктов.

Контентная фильтрациявыдает рекомендации на основе поведения пользователя. Если вы когда-нибудь видели рекламу Google для винного магазина после того, как набрали в Google «лучшие французские вина», это фильтрация на основе контента в действии.

Большинство крупных систем рекомендаций используют оба подхода. Netflix, например, рекомендует фильмы, основываясь на том, какие фильмы популярны среди всех клиентов, а также на том, что отдельный пользователь ранее смотрел в определенных жанрах.

Системы рекомендаций также используют машинное обучение. По мере того, как регистрируется все больше активности пользователей, алгоритмы принимают во внимание различия в ваших предпочтениях и предпочтениях других пользователей, чтобы постоянно совершенствовать отображаемые рекомендации.

Но алгоритмы далеки от совершенства — вот три недостатка:

1. Проблемы с данными

Как правило, алгоритмы более точны с меньшим количеством точек данных. Но по мере роста объемов данных «традиционные алгоритмы могут испытывать трудности с их выполнением», отмечает IBM. «Хотя это может не быть проблемой для автономной обработки, для сценариев в реальном времени необходимы более специализированные подходы».

Парадокс заключается в том, что рекомендательные системы лучше работают с небольшими объемами данных, если в базе данных нет достаточного количества элементов. Семейный магазин электронной коммерции, который предлагает три стиля теннисных туфель, вероятно, не нуждается в системе рекомендаций.

Один из подходов к решению проблемы больших данных включает в себя все возрастающую классификацию. Система рекомендаций Musimap, например, использует графическую базу данных Neo4j для построения 55 взвешенных переменных для каждого музыкального произведения. У такого артиста, как Джеймс Браун, могут быть переменные, включающие госпел, соул и фанк.

Системы рекомендаций также, как правило, ограничены базой данных продуктов. По состоянию на март этого года в каталоге Netflix было всего 4335 фильмов — крошечная часть фильмов, произведенных во всем мире, — и многие популярные американские фильмы были недоступны.

2. Доверие

Одна из проблем с рекомендательными системами заключается в том, что они думают, что знают вас. Из-за зависимости от данных и продукта они этого не делают. Их знания о человеке основаны на активности кликов в интерфейсе, эффективности самого алгоритма и мудрости толпы. Алгоритмы Facebook, например, показали, что они плохо отражают фактические предпочтения пользователя.

IBM отмечает, что «хотя поведение некоторых пользователей можно смоделировать, другие пользователи не демонстрируют типичного поведения». Эти пользователи могут исказить результаты рекомендательной системы и снизить ее эффективность.

Другая опасность заключается в том, что система рекомендаций может быть использована для предпочтения одного продукта другому. Некоторые компании даже нанимают фирму по «управлению онлайн-репутацией», чтобы оставить положительные отзывы о продукте. Вы действительно доверяете этому четырехзвездочному рейтингу на Yelp?

3. Отсутствие инноваций

При попытке выбрать продукт, фильм или статью-победитель системы рекомендаций, как правило, воспроизводят стереотипы и укрепляют существующие практики.

Связанной с этим опасностью является предвзятость: хотя алгоритмы могут учиться на взвешенных переменных в базе данных продуктов, сам список часто имеет человеческий фактор, включая описание продукта, изображение и общий веб-дизайн. Таким образом, система рекомендаций может отдавать предпочтение одному продукту по сравнению с другим просто из-за лучшего изображения, а не из-за качества продукта.

В статье BloomReach далее отмечается, что алгоритмы, как правило, плохо справляются с нюансами. Например, выпуск Диснеем фильма Холодное сердце в 2013 году изменил определение термина, но алгоритм, который не был обновлен, может получить результаты для замороженных продуктов.

Три проблемы для систем рекомендаций

Автор Крис Рафаэль

Подходы системы рекомендаций

1. Проблемы с данными

2. Доверие

3. Отсутствие инноваций

Связанный:

Как алгоритмы Netflix заставляют клиентов смотреть

Еще по теме: Применение машинного обучения

Специальный доклад: Использование Интернета вещей для повышения качества обслуживания клиентов

Три проблемы для систем рекомендаций

Автор Крис Рафаэль

Подходы системы рекомендаций

1. Проблемы с данными

2. Доверие

3. Отсутствие инноваций

Связанный:

Как алгоритмы Netflix заставляют клиентов смотреть

Еще по теме: Применение машинного обучения

Специальный доклад: Использование Интернета вещей для повышения качества обслуживания клиентов

Вопросы по теме