기록하는삶
[추천 시스템/RecSys] 연관 규칙 분석 관련 용어 정리(support, confidence, lift) 본문
[추천 시스템/RecSys] 연관 규칙 분석 관련 용어 정리(support, confidence, lift)
mingchin 2022. 3. 8. 01:10연관 규칙 분석(Association Rule Analysis, Association Rule Mining)이란 주어진 거래(transaction) 데이터에 대해서
연속된 거래(혹은 클릭, 시청 등)들 사이의 (연관) 규칙을 찾는 것으로, 장바구니 분석 혹은 서열 분석이라고도 불린다. 컴퓨터를 구매한 고객이 그 다음 많이 사는 아이템이 무엇인지 찾거나, 드라마 A와 영화 B를 동시에 시청한 고객의 비율을 알아내는 것 등이 여기에 속한다.
연관 규칙은 X{antecedent} → Y{consequent}의 형태로 표현하게 되며, 이때 antecedent와 consequent는 모두 1개 이상의 item으로 이루어진, 서로소인 itemset이다.
수치에 기반하여 이러한 연관 규칙을 표현하기 위해서는 아래의 용어들에 대한 이해가 필요하다. 아래의 거래 데이터 예시로 살펴보자.
1) 빈발 집합(Frequent Itemset)
minimum support 값 이상의 itemset을 의미한다. 빈발 집합을 정의하기 위해 원하는 minimum support 값을 설정하면 된다. Frequent Itemset에 속하지 못한 itemset은 Infrequent Itemset이라 칭한다. 보통 연관 규칙은 빈발 집합을 대상으로 찾아내게 된다.
2) Support count(𝜎)와 Support
support count는 특정 itemset이 거래 데이터에 등장하는 빈도수를 말한다. 𝜎({우유}) = 5, 𝜎({기저귀, 계란}) = 2, 𝜎({빵, 기저귀}) = 3 등이 예이다. support는 특정 itemset이 거래 데이터에 등장하는 비율로, "(support count / 전체 거래 데이터의 수)"의 값과 같다. 연관 규칙 𝑋 → 𝑌에 대한 support의 경우 itemset X와 Y의 교집합에 대한 support 값을 의미한다.
3) Confidence
𝑋가 포함된 transaction 가운데 𝑌도 포함하는 transaction 비율로, 𝑌의 𝑋에 대한 조건부 확률과 같은 의미이다. confidence가 1에 가까울수록 유용한 규칙이라 해석할 수 있다.
4) Lift
(𝑋가 포함된 transaction 가운데 𝑌가 포함된 비율) / (𝑌가 포함된 비율) 을 의미하여, lift = 1 이면 두 itemset 𝑋, 𝑌가 독립이고, 1로부터 멀수록 강한 상관관계를 가지는 것으로 해석할 수 있다. (lift > 1: 𝑋, 𝑌가 양의 상관관계 / lift < 1: 𝑋, 𝑌가 음의 상관관계)
위 거래 데이터 예시를 가지고 연관 규칙 {빵(𝑋)} → {계란(𝑌)} 에 대해 support, confidence, lift를 각각 구해보면 아래와 같다.
'AI > 추천시스템(RecSys)' 카테고리의 다른 글
[추천 시스템/RecSys] 딥러닝을 활용한 추천 모델 DeepFM, DIN, BST (0) | 2022.03.17 |
---|---|
[추천 시스템/RecSys] CAR(Context-aware Recommendation), FM, FFM (0) | 2022.03.15 |
[추천 시스템/RecSys] KNN과 ANN / ANNOY, HNSW, IVF 등의 방법론 (0) | 2022.03.12 |
[추천 시스템/RecSys] 다양한 거리와 유사도 측정법 (0) | 2022.03.11 |
[추천 시스템/RecSys] 추천 시스템의 필요성과 의의, 사용 데이터, 평가 지표 (0) | 2022.03.07 |