Анализ ассоциативных правил: что такое частые наборы элементов

Нахождение частоты появления уникальных комбинаций предметов

Чтобы понять часто используемые наборы элементов, сначала необходимо понять частые и наборы элементов. Давайте сначала посмотрим, что означают наборы элементов. Проще говоря, наборы элементов — это группа элементов, которые появляются вместе в транзакции или записи. Размер группы может быть от 1 до количества всех элементов в этой транзакции или записи. Можно было бы рассмотреть даже размер 0, но это не дало бы ничего значимого.

Наборы элементов или Powerset

Давайте углубимся в код набора элементов. Начнем с одного примера записи.

В этой записи всего три предмета: яблоко, банан и молоко. Всего из списка записей возможно 2³ набора различных размеров, который также содержит пустой набор. Так что 2³-1,7 релевантных сетов из этого рекорда. 3 предмета могут создать в общей сложности 2³-1, 7 уникальных наборов. Если всего возможно n элементов, это приведет к 2^n-1 уникальным наборам.

Приведенный выше код показывает все наборы элементов из записи. В основном показаны все возможные 8 уникальных групп, включая пустой набор (обычно неактуальный).

Как вычислить наборы элементов?

Когда n становится большим, эти уникальные наборы элементов становятся очень большими. Хотя некоторые из них могут никогда не появиться вместе. Так как не все комбинации элементов будут отображаться в записях. Например, если запись эквивалентна транзакции в магазине, не каждый товар будет отображаться вместе со всеми другими товарами в той или иной комбинации.

Наборы элементов из записей:

{('яблоко', 'молоко'), ('банан', 'молоко'), ('яблоко', 'банан', 'молоко'), ('яйца', 'хлеб'), ('банан', ), ('молоко',), ('яблоко', 'яйца', 'хлеб'), ('яйца', ('), ('яблоко', 'яйца'), ('хлеб',), ('яблоко', 'хлеб'), ('яблоко',), ('яблоко', 'банан'), ('яйца', 'молоко')}

Наборы элементов из элементов
[(), ('яблоко', ('банан',), ('молоко',), ('яйца',), ('хлеб',), ('яблоко' , 'банан'), ('яблоко', 'молоко'), ('яблоко', 'яйца'), ('яблоко', 'хлеб'), ('банан', 'молоко'), ('банан' , 'яйца'), ('банан', 'хлеб'), ('молоко', 'яйца'), ('молоко', 'хлеб'), ('яйца', 'хлеб'), ('яблоко' , 'банан', 'молоко'), ('яблоко', 'банан', 'яйца'), ('яблоко', 'банан', 'хлеб'), ('яблоко', 'молоко', 'яйца' ), ('яблоко', 'молоко', 'хлеб'), ('яблоко', 'яйца', 'хлеб'), ('банан', 'молоко', 'яйца'), ('банан', ' молоко', 'хлеб'), ('банан', 'яйца', 'хлеб'), ('молоко', 'яйца', 'хлеб'), ('яблоко', 'банан', 'молоко', ' яйца'), ('яблоко', 'банан', 'молоко', 'хлеб'), ('яблоко', 'банан', 'яйца', 'хлеб'), ('яблоко', 'молоко', ' яйца', 'хлеб'), ('банан', 'молоко', 'яйца', 'хлеб'), ('яблоко', 'банан', 'молоко', 'яйца', 'хлеб')]

Приведенный выше код показывает несколько записей и все уникальные элементы. Наборы элементов, вычисленные с помощью уникальных элементов и нескольких записей, не совпадают. Наборы элементов, использующие записи, меньше, чем рассчитанные с помощью уникальных элементов. Таким образом, вместо создания уникальных наборов элементов из всех возможных уникальных элементов база данных записей используется для эффективного вычисления возможных наборов элементов.

Частота

Какова частота? Это просто отношение количества появлений определенного события к количеству появлений всех событий в течение определенного периода наблюдения. Итак, как это работает в случае наборов элементов? Давайте сломаем это.

Отношение количества событий определенного события к количеству всех событий в течение определенного периода наблюдения

Частота набора элементов:
(«яблоко»), 0,67
(«банан», 0,33
(«молоко»), 0,67
(«яблоко», «банан»), 0,33
(«яблоко», «молоко»), 0,33
(«банан», «молоко»), 0,33
(«яблоко», «банан», « молоко'), 0,33
("яйца"), 0,67
("хлеб", 0,33
("яблоко", "яйца"), 0,33
("яйца"), 0,33
("яйца") яблоко», «хлеб»), 0,33
(«яйца», «хлеб»), 0,33
(«яблоко», «яйца», «хлеб»), 0,33
(«яйца ', 'молоко'), 0,33

Например, яблоко встречается в двух из трех записей, поэтому его частота составляет 2/3=0,67 (округляется до двух знаков после запятой).

Поддержка — это еще один термин, используемый для частоты при анализе правил ассоциации. В этом сценарии используется определенный порог, и только наборы элементов выше этого порога рассматриваются для анализа правил.

Вывод

Надеюсь, этот пост прояснит, что такое частые наборы элементов. Я хотел бы отметить два вывода:

  1. Для повышения эффективности важно, как вычислять уникальные наборы элементов из баз данных записей, а не уникальные элементы.
  2. Когда у нас есть уникальные наборы элементов, частота вычисляется путем нахождения всех записей, в которых появляется эта комбинация, разделенных на общее количество записей.

Далее я хотел бы написать об уверенности, подъеме, убежденности, а затем пройти полный круг по анализу правил.