KGAT: Knowledge Graph Attention Network for Recommendation
Digest (CISELQ)
- C (Context): 전통적 추천 시스템(CF, FM 등)은 user-item 상호작용을 독립 인스턴스로 취급하여 item-attribute 간 고차 연결(high-order connectivity)을 활용하지 못한다. Knowledge Graph(KG)는 이러한 side information을 제공할 수 있지만, 기존 KG 기반 추천(RippleNet, KGCN 등)은 path 기반 또는 단순 regularization에 한정되어 end-to-end 학습과 고차 관계 전파가 어렵다.
- I (Intervention): user-item bipartite graph와 KG를 통합한 **Collaborative Knowledge Graph(CKG)**를 구성하고, TransR embedding + attentive embedding propagation + layer aggregation을 결합한 KGAT을 제안한다. Attention은 각 이웃의 relation-specific 기여도를 학습한다.
- S (Study design): Amazon-book, Last-FM, Yelp2018 3개 벤치마크에서 SOTA 추천 모델(FM, NFM, CKE, CFKG, MCRec, RippleNet, GC-MC 등)과 Recall@20, NDCG@20 비교. Ablation(레이어 깊이, attention 유무, aggregator 종류) 수행.
- E (Evidence): 3개 데이터셋 전반에서 best baseline 대비 Recall@20 약 +4
13%, NDCG 동반 상승. Attention weight 시각화로 해석 가능성 입증. Layer를 34개까지 쌓았을 때 성능 peak. - L (Limitation): KG quality 의존성, CKG가 커지면 propagation 비용 증가, static KG 가정으로 시간/맥락 의존 관계 미반영, cold-start 시나리오 분석 제한적.
- Q (Questions): dynamic KG로 확장 가능한가? LLM-augmented KG와 결합 시 고차 전파가 여전히 필요한가? Attention 해석이 실제 user rationale과 일치하는가?
섹션별 요약
Introduction
CF와 supervised learning(FM, Wide&Deep, xDeepFM) 기반 추천은 user-item 상호작용만 사용하거나 feature를 i.i.d로 간주하여 high-order 관계(예: 같은 감독의 영화 → 배우 공통 → 다른 사용자의 관심)를 캡처하지 못함. Hybrid 접근(CKE, RippleNet, KGCN)은 KG를 도입했지만 path enumeration 비용 또는 shallow propagation 한계가 있음. KGAT은 GNN의 propagation power와 attention의 relation-aware weighting을 결합해 end-to-end로 학습.
Methods
- CKG 구성: 사용자 행동을 triple (user, interact, item)으로 표현해 KG와 병합.
- Embedding Layer: TransR로 h + r ≈ t를 학습.
- Attentive Embedding Propagation: ego-network 단위로 relation-aware attention π(h,r,t)에 따라 이웃 정보를 aggregation (GCN, GraphSage, Bi-Interaction 세 가지 aggregator 제시, Bi-Interaction 권장).
- 여러 레이어 결과를 concat 또는 sum으로 high-order representation 구성.
- Prediction: user/item 최종 임베딩의 inner product.
- Optimization: BPR loss + KG embedding loss(TransR margin) 합산 alternating training.
Results (주요 표)
| Dataset | Metric | Best Baseline | KGAT | 상대 이득 |
|---|---|---|---|---|
| Amazon-book | Recall@20 | 0.1340 (CFKG) | 0.1489 | +11.1% |
| Amazon-book | NDCG@20 | 0.0853 | 0.0953 | +11.7% |
| Last-FM | Recall@20 | 0.0768 (RippleNet) | 0.0870 | +13.3% |
| Last-FM | NDCG@20 | 0.1283 | 0.1325 | +3.3% |
| Yelp2018 | Recall@20 | 0.0631 (NFM) | 0.0712 | +12.8% |
| Yelp2018 | NDCG@20 | 0.0813 | 0.0867 | +6.6% |
(값은 논문 Table 3 기준 근사치)
Discussion
레이어 수 1→3 증가 시 일관된 성능 향상, 4층에서는 saturation/over-smoothing. Attention 제거 시 성능 하락 → relation-aware weighting이 핵심. TransR pretraining이 cold entity에 특히 유효.
Insights
- KG를 추천과 joint로 학습할 때 representation alignment가 개선됨.
- Attention은 해석 가능성과 성능을 동시에 제공.
- Bi-Interaction aggregator(sum + element-wise product)가 feature interaction을 강화.
Discussion Points
- KG 품질이 낮거나 sparse한 도메인에서 성능 보증?
- 시간적 dynamics(세션 기반)는 어떻게 통합?
- LLM 기반 embedding과 결합 시 TransR이 여전히 필요?
메타데이터 table
| 항목 | 내용 |
|---|---|
| 저자 | Xiang Wang, Xiangnan He, Yixin Cao, Meng Liu, Tat-Seng Chua |
| 학회 | KDD 2019 |
| 코드 | https://github.com/xiangwang1223/knowledge_graph_attention_network |
| 데이터셋 | Amazon-book, Last-FM, Yelp2018 |
| 태스크 | Top-K Recommendation |
| 주요 지표 | Recall@20, NDCG@20 |
왜 이 연구를 하는가?
추천 시스템은 데이터 희소성과 cold-start 문제에 취약하며, KG는 item attribute와 관계 지식을 풍부하게 제공하지만 기존 방법들은 (i) meta-path 기반으로 도메인 전문가 설계가 필요하거나 (ii) regularization 항 수준으로만 활용해 고차 관계 전파가 제한적이다. CKG 위에서 attention 기반 GNN으로 end-to-end, 고차, relation-aware 추천을 가능하게 하는 통합 프레임워크가 필요하다.
방법 (Method)
flowchart TD A[User-Item Interactions] --> C[Collaborative Knowledge Graph CKG] B[Knowledge Graph h,r,t] --> C C --> D[Embedding Layer: TransR] D --> E[Attentive Embedding Propagation Layer l=1..L] E --> F{Aggregator} F -->|GCN| G1[sum + nonlinear] F -->|GraphSage| G2[concat + nonlinear] F -->|Bi-Interaction| G3[sum + element-wise product] G1 --> H[Layer Aggregation: concat e0..eL] G2 --> H G3 --> H H --> I[Prediction: inner product] I --> J[BPR Loss] D --> K[KG Loss: TransR margin] J --> L[Joint Alternating Optimization] K --> L
- Attention 계수: π(h,r,t) = (W_r e_t)^T tanh(W_r e_h + e_r), softmax로 정규화.
- 최종 임베딩: e*_u = e_u^(0) || e_u^(1) || … || e_u^(L).
발견 table
| 관찰 | 증거 | 함의 |
|---|---|---|
| 모든 데이터셋에서 SOTA 초과 | Table 3 | KG joint propagation 유효 |
| 3-hop이 sweet spot | Layer study | over-smoothing 존재 |
| Attention 제거 시 성능 하락 | Ablation | relation-aware weighting 필요 |
| Bi-Interaction > GCN/GraphSage | Aggregator ablation | multiplicative 상호작용 중요 |
| Sparse 사용자 그룹에서 큰 개선 | User group study | KG가 cold-start 보완 |
이론적 의의
- GNN + KG embedding + attention을 단일 프레임워크로 통합하여 message passing 관점의 추천 이론을 정립.
- Collaborative Knowledge Graph 개념은 이후 KGCN-LS, KGIN, MCCLK 등 후속 연구의 표준 기반이 됨.
- Attention 해석을 통해 추천 근거(rationale)를 노출하는 explainable recommendation 연구와 연결.
재현성 및 신뢰도 평가 table
| 항목 | 평가 | 근거 |
|---|---|---|
| 데이터 공개 | A | 3개 공개 벤치마크 + 전처리 공개 |
| 코드 공개 | A | 공식 TensorFlow 구현 제공 |
| 하이퍼파라미터 문서화 | A | embedding dim, layer, lr 등 명시 |
| 통계적 유의성 | B | 단일 run 평균 위주, std 일부 제공 |
| 일반화 | A | 3개 상이 도메인 검증 |
| 총평 | A | 커뮤니티에서 수천 회 재현/확장 |
관련 연구
- CKE (KDD’16): TransR regularization
- RippleNet (CIKM’18): preference propagation over KG
- GC-MC (KDD’18 W): GNN on bipartite graph
- PinSage (KDD’18): industrial GraphSage
- KGCN (WWW’19): KG-aware GCN
- NGCF (SIGIR’19): neural graph CF (같은 저자군)
- KGIN (WWW’21): intent-aware 확장 (후속)
원자적 인사이트
- 고차 relation-aware propagation은 단순 depth 확장보다 attention을 통한 relation-specific weighting과 결합될 때 비약적 성능 향상을 준다. Ablation에서 attention 제거만으로도 성능이 baseline 수준으로 회귀함.
- CF 상호작용과 KG triple을 하나의 그래프(CKG)로 통합하고 joint하게 message passing하면, 별도 feature engineering 없이 attribute-level 유사도까지 임베딩에 자연스럽게 녹아든다. 이는 이후 추천 GNN 설계의 de facto pattern이 되었다.
- Bi-Interaction aggregator(sum + Hadamard)는 additive와 multiplicative feature interaction을 함께 캡처하여 FM 계열 장점을 GNN에 이식한 형태로, 단순 GCN보다 일관되게 우수.
핵심 용어 정리
- Collaborative Knowledge Graph (CKG): user-item 상호작용을 특별한 relation으로 포함시킨 KG.
- TransR: entity와 relation을 분리된 공간에서 projection하여 h + r ≈ t를 학습하는 KG embedding.
- Attentive Embedding Propagation: relation-aware attention으로 이웃 노드 정보를 가중 합산하는 GNN 레이어.
- Bi-Interaction Aggregator: e_N의 sum과 e_h ⊙ e_N의 element-wise product를 결합하는 aggregator.
- BPR Loss: Bayesian Personalized Ranking, positive-negative pair 기반 implicit feedback 손실.
- High-order Connectivity: 그래프 상 L-hop 경로로 연결되는 관계 정보.
태그
RecSys KnowledgeGraph GraphAttention GNN KDD2019 EndToEnd Application