Что такое алгоритм априори?

Алгоритм Apriori используется для анализа часто встречающихся наборов элементов и разработки правил ассоциации из транзакционной базы данных. Используются параметры «поддержка» и «уверенность». Поддержка означает частоту появления элементов; уверенность — это условная вероятность.

Элементы в транзакции образуют набор элементов. Алгоритм начинается с выявления частых отдельных элементов (элементов с частотой, большей или равной заданной поддержке) в базе данных, и продолжает расширять их до более крупных и часто встречающихся наборов элементов.

Априорный алгоритм использует свойство закрытия по направлению вниз , т. е. все подмножества частого набора элементов являются частыми, но обратное может быть неверным.

Алгоритм

Ниже приведены основные шаги алгоритма:

  1. Вычислить поддержку наборов элементов ( размера k = 1) в транзакционной базе данных (обратите внимание, что поддержка — это частота появления набора элементов). Это называется генерацией набора кандидатов .

  2. Обрезать набор кандидатов, удалив элементы с поддержкой меньше заданного порога .

  3. Присоединяйтесь к часто используемым наборам элементов, чтобы сформировать наборы размера k + 1, и повторяйте вышеуказанные наборы до тех пор, пока не перестанут формироваться наборы элементов. Это произойдет, когда сформированные наборы имеют поддержку меньше заданной поддержки.

Давайте пройдемся по пример, чтобы увидеть алгоритм в действии. Предположим, что заданная поддержка — 3, а требуемая достоверность — 80%.

1 из 7

Теперь давайте создадим правила ассоциации. Вот где требуется данная уверенность. Для правила X−> Y X -> Y X-> Y, достоверность рассчитывается как S u p p o r t ( X a n d Y ) / S u p p o r t ( X ) Поддержка (X и Y)/Поддержка (X) Поддержка (XandY)/Поддержка (X).

Из размера двух часто встречающихся наборов элементов (2-частые наборы элементов) можно получить следующие правила:

  1. I2−> I3 I2 -> I3 I2-> I3 Уверенность = 3/3 = 100%.
  2. I 3 — > I 2 I3 -> I2 I3-> I2 Confidence = 3/4 = 75%
  3. I 3 — > I 4 I3 -> I4 I3-> I4 Confidence = 3/4 = 75% .
  4. I 4 — > I 3 I4 -> I3 I4-> I3 Confidence = 3/3 = 100%

Поскольку наша требуемая достоверность составляет 80%, только правила 1 и 4 входит в результат. Таким образом, можно сделать вывод, что клиенты, купившие товар два (I2), всегда покупали товар третий (I3) с ним, а клиенты, купившие товар четвертый (I4), всегда покупали товар 3 (I3) вместе с ним.

Оцените статью
nanomode.ru
Добавить комментарий