Использование Word2vec не только для текста

Недавно я прочитал несколько статей, которые являются хорошими примерами тенденции, когда компании используют модели, подобные word2vec, для изучения встраиваний, которые представляют собой компактное векторное представление объектов.

В этом посте, первом из трех, будет рассказано, как Best Buy, Capital One, Facebook и Grubhub используют машинное обучение для изучения встраивания, чтобы лучше понимать своих клиентов и предоставлять этим клиентам персонализированные рекомендации.

Лучшее понимание клиентов и предоставление им релевантного контента с помощью персонализированных рекомендаций позволяет повысить качество обслуживания клиентов и, в конечном итоге, их лояльность.

Обучающие вложения

Word2vec - это алгоритм, использующий последовательный характер текста для изучения встраивания слов. Вложения изучаются путем использования распределительной гипотезы, которая гласит, что слова, встречающиеся в одном и том же контексте (слова вокруг определенного слова), как правило, имеют похожие значения.

Для заданного слова алгоритм учится предсказывать контекст, используя статистику совпадения слов и соседних с ними слов в последовательности слов (предложении). При этом он изучает вложения для слов и помещает их в векторное пространство, где слова, близкие друг к другу в этом пространстве, семантически похожи. На рисунке 1 ниже показан пример из Grubhub, который показывает пункты меню, сопоставленные с трехмерным пространством встраивания.

Использование Word2vec для других последовательных типов данных

Текст - это лишь один пример последовательных данных, которые можно использовать для обучения встраиванию. Как мы увидим в примерах из Best Buy, Capital One, Facebook и Grubhub, вы можете использовать word2vec для создания вложений, которые фиксируют семантические отношения, обучая word2vec-подобную модель последовательностям действий пользователя, например сеансам кликов.

В случае сеансов кликов последовательность кликов потребителя аналогична предложению, а продукты в последовательности кликов аналогичны словам.

Лучшая покупка

Best Buy обучает встраиванию продуктов, используя модель word2-vec, чтобы предоставлять своим клиентам персонализированные рекомендации. Их модель рассматривает продукты как слова, а последовательность продуктов покупателя в сеансе - как предложение.

В сообщении в блоге Best Buy объясняет, как они используют эту последовательность действий пользователя для получения семантического понимания контента - когда пользователь просматривает и взаимодействует с разным контентом, абстрактные качества части контента могут быть выведены из того, что контент, с которым пользователь взаимодействует до и после. Это позволяет нам применять векторные модели слов для изучения встраивания товаров, исходя из предположения, что покупатели часто покупают похожие товары последовательно .

Capital One

В своем посте Capital One описал, как они могут применить идею встраивания графов к финансовым услугам. Они совершают случайные прогулки по графам, чтобы генерировать последовательности узлов, которые можно рассматривать как предложения. Это позволяет им обучать модель, аналогичную word2vec, для создания встраиваемых графов. Вложения, которые они изучают, представляют аккаунты и продавцов.

Они заявляют, что «учетные записи будут размещены рядом друг с другом тогда и только тогда, когда они будут делать покупки у одних и тех же продавцов. А продавцы будут находиться рядом друг с другом тогда и только тогда, когда они будут иметь тенденцию принимать клиентов с похожими покупательскими привычками. Анализируя графики транзакций по кредитным картам, мы можем использовать репрезентативное обучение, чтобы понять, насколько сущности похожи, в зависимости от того, как они взаимодействуют ».

Grubhub

Когда пользователи ищут и просматривают Grubhub, они прямо или косвенно предоставляют обратную связь о том, как связаны элементы. Благодаря этой обратной связи Grubhub может получить семантическое понимание намерения запроса для изучения скрытого графа еды. В их случае они встраивают поисковый запрос вместо слов.

Grubhub более подробно рассказал о том, как это работает - если вы ищете восхитительное французское блюдо« Magret de Canard и переходите в ресторан Le Prive, и если кто-то другой ищет кухню» French »и нажимает на Le Prive, а затем наблюдается сильная совместная обратная связь, что Le Prive предлагает французскую кухню, а Margret de Canard - французскую кухню».

Grubhub использует свои выученные вложения и график питания как часть своей системы рекомендаций.

Facebook

Facebook разработал то, что они называют ig2vec, чтобы рекомендовать релевантный контент пользователям в Instagram.

С помощью ig2vec они изучают встраивания учетных записей, чтобы определить, какие учетные записи тематически похожи друг на друга. Они рассматривают учетные записи Instagram, «с которыми взаимодействует пользователь - например, человек любит медиа из учетной записи - как последовательность слов в предложении». Это позволяет им обучать модель, подобную word2vec, которая помогает им находить учетные записи, похожие на те, к которым человек ранее проявлял интерес. Это, в свою очередь, помогает им рекомендовать контент, который с большей вероятностью будет иметь отношение к конкретному пользователю Instagram.

Поиск сходства

В этом сообщении блога представлено несколько примеров того, как компании используют модели, подобные word2vec, для изучения семантических встраиваний.

Во части 2 этой серии блогов мы расскажем, как можно использовать семантические встраивания как часть конвейера поиска по сходству. Поиск по сходству - ключевой компонент систем рекомендаций, которые помогают компаниям доставлять персонализированный контент своим клиентам и, в свою очередь, повышать лояльность клиентов.