Анализ шаблонов - это невероятно простой, но мощный метод обнаружения совпадений в больших наборах данных. Наиболее распространенным подходом к поиску этих закономерностей является анализ рыночной корзины, который часто называют методом Amazon, который использует функцию пользователи также приобрели.

Конечно, это резкое упрощение. Amazon определенно не построила розничную империю на основе единого алгоритма, выдающего рекомендации; их функция почти наверняка использует и другие статистические факторы. Однако анализ рыночной корзины по-прежнему невероятно полезен для практиков, особенно когда речь идет об оценке качественных данных.

Это огромная добавленная стоимость для MBA. Большинству специалистов по обработке данных удобно придерживаться числовых наборов данных, чего и следовало ожидать, поскольку большинство проблем, с которыми мы регулярно сталкиваемся, можно свести к численным решениям. Обработка естественного языка - это наиболее близкие к качественным данным, которые мы обычно получаем, но даже в этом случае мы все равно обычно применяем машинное обучение. Такие методы, как MBA, могут открыть целый мир других возможностей для практиков, желающих расширить свой инструментарий.

Без лишних слов, это анализ корзины и способы его использования в полевых условиях.

Вплоть до медных гвоздей

Я уже упоминал, что анализ рыночной корзины глупый прост. Это действительно так: вы просто смотрите на вероятность того, что разные элементы встречаются вместе. Это еще не все, но это основа этой техники. На самом деле мы просто заинтересованы в том, чтобы узнать, как часто что-то идет вместе и как предсказать, когда что-то пойдет вместе.

Представьте, что у нас есть набор корзин со следующими предметами:

  • Яйца, масло, хлеб
  • Яйца, хлеб, варенье
  • Хлеб, масло, яблоки
  • Яблоки, яйца
  • Яйца

Наша цель - выяснить, какие товары предсказывают покупку других товаров. Или, если мы хотим обобщить наш пример, нас интересует, какие комбинации характеристик предсказывают наличие других характеристик.

Начните с разбивки ваших корзин на плоскую матрицу совпадения.

Яйца, масло, хлеб, варенье, яблоки Корзина OneXXXКорзина дваXXXКорзина триXXXКорзина четыреXXКорзина FiveX

Из этой матрицы мы можем определить вероятность наблюдения любой пары характеристик в одном и том же примере. Допустим, мы рассчитали это для масла и хлеба:

P (Масло, Хлеб) = (# Корзинки для хлеба и сливочного масла) / Итого = 2/5

Довольно просто, правда? Вероятность одновременного появления двух элементов - это лишь часть примеров, в которых были оба элемента. В контексте MBA мы называем это нашей поддержкой.

Эта статистика полезна сама по себе. Но было бы еще полезнее, если бы мы знали, в скольких транзакциях у нас есть хлеб, у нас также есть масло. Другими словами, мы собираем информацию о том, как покупка хлеба связана с покупкой масла. Это называется нашей уверенностью.

Conf (масло для хлеба) = P (масло, хлеб) / P (хлеб) = 2/3

Другими словами, если мы покупаем хлеб, высока вероятность, что мы также купим масло. Теперь у нас есть правило ассоциации.

Давай сделаем еще лучше. Что, если мы действительно сможем оценить, насколько наши правила лучше предсказывают результат, чем если бы мы только что предполагали на основе опор? Эта идея называется лифтом, и ее можно рассматривать как "действительность" правила ассоциации.

Подъем (Установить X Установить Y) = Уверенность (XY) P (X) P (Y)

Рост - это просто отношение уверенности к ожидаемой уверенности - или вероятность наблюдения всех товаров вместе согласно нашему правилу по сравнению с вероятностью наблюдения каждого товара в одной и той же корзине, как если бы между ними не было никакой связи. Подъем выше единицы указывает на то, что наше правило лучше предсказывает результат, в то время как подъем ниже единицы означает, что первый элемент фактически смягчает случаи второго.

Как это выглядит для нашего хлеба с маслом?

Подъем (масло для хлеба) = уверенность (масло для хлеба) P (хлеб) P (масло) = (2/3) (3/5) (2/5) = 2,7

Оказывается, наше правило ассоциации довольно хорошо помогает определить, будет ли кто-то покупать масло, учитывая, что они покупали хлеб.

Глупо просто, глупо полезно

Несмотря на то, что MBA - чрезвычайно простая в использовании методика, ее идеи являются мощными и могут применяться к невероятному разнообразию данных. В частности, вы можете начать программу MBA, опираясь на качественные данные, которые нелегко обобщить с помощью количественных методов. Для социологов, психологов и демографов, обладающих роскошью больших наборов данных, это может быть очень эффективным.

Анализ рыночной корзины может открыть новые горизонты для вашего анализа, если вы проявите смекалку. Следите за наборами данных, которые не вписываются в наши обычные подходы к машинному обучению, и посмотрите, сможете ли вы применить MBA, чтобы найти некоторые сюрпризы.

Оригинальная история здесь.

— — — — — — — — — — — — — — — — — —

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.