KGAT: Knowledge Graph Attention Network for Recommendation

Digest (CISELQ)

C (Context): 전통적 추천 시스템(CF, FM 등)은 user-item 상호작용을 독립 인스턴스로 취급하여 item-attribute 간 고차 연결(high-order connectivity)을 활용하지 못한다. Knowledge Graph(KG)는 이러한 side information을 제공할 수 있지만, 기존 KG 기반 추천(RippleNet, KGCN 등)은 path 기반 또는 단순 regularization에 한정되어 end-to-end 학습과 고차 관계 전파가 어렵다.
I (Intervention): user-item bipartite graph와 KG를 통합한 **Collaborative Knowledge Graph(CKG)**를 구성하고, TransR embedding + attentive embedding propagation + layer aggregation을 결합한 KGAT을 제안한다. Attention은 각 이웃의 relation-specific 기여도를 학습한다.
S (Study design): Amazon-book, Last-FM, Yelp2018 3개 벤치마크에서 SOTA 추천 모델(FM, NFM, CKE, CFKG, MCRec, RippleNet, GC-MC 등)과 Recall@20, NDCG@20 비교. Ablation(레이어 깊이, attention 유무, aggregator 종류) 수행.
E (Evidence): 3개 데이터셋 전반에서 best baseline 대비 Recall@20 약 +4~~13%, NDCG 동반 상승. Attention weight 시각화로 해석 가능성 입증. Layer를 3~~4개까지 쌓았을 때 성능 peak.
L (Limitation): KG quality 의존성, CKG가 커지면 propagation 비용 증가, static KG 가정으로 시간/맥락 의존 관계 미반영, cold-start 시나리오 분석 제한적.
Q (Questions): dynamic KG로 확장 가능한가? LLM-augmented KG와 결합 시 고차 전파가 여전히 필요한가? Attention 해석이 실제 user rationale과 일치하는가?

섹션별 요약

Introduction

CF와 supervised learning(FM, Wide&Deep, xDeepFM) 기반 추천은 user-item 상호작용만 사용하거나 feature를 i.i.d로 간주하여 high-order 관계(예: 같은 감독의 영화 → 배우 공통 → 다른 사용자의 관심)를 캡처하지 못함. Hybrid 접근(CKE, RippleNet, KGCN)은 KG를 도입했지만 path enumeration 비용 또는 shallow propagation 한계가 있음. KGAT은 GNN의 propagation power와 attention의 relation-aware weighting을 결합해 end-to-end로 학습.

Methods

CKG 구성: 사용자 행동을 triple (user, interact, item)으로 표현해 KG와 병합.
Embedding Layer: TransR로 h + r ≈ t를 학습.
Attentive Embedding Propagation: ego-network 단위로 relation-aware attention π(h,r,t)에 따라 이웃 정보를 aggregation (GCN, GraphSage, Bi-Interaction 세 가지 aggregator 제시, Bi-Interaction 권장).
여러 레이어 결과를 concat 또는 sum으로 high-order representation 구성.
Prediction: user/item 최종 임베딩의 inner product.
Optimization: BPR loss + KG embedding loss(TransR margin) 합산 alternating training.

Results (주요 표)

Dataset	Metric	Best Baseline	KGAT	상대 이득
Amazon-book	Recall@20	0.1340 (CFKG)	0.1489	+11.1%
Amazon-book	NDCG@20	0.0853	0.0953	+11.7%
Last-FM	Recall@20	0.0768 (RippleNet)	0.0870	+13.3%
Last-FM	NDCG@20	0.1283	0.1325	+3.3%
Yelp2018	Recall@20	0.0631 (NFM)	0.0712	+12.8%
Yelp2018	NDCG@20	0.0813	0.0867	+6.6%

(값은 논문 Table 3 기준 근사치)

Discussion

레이어 수 1→3 증가 시 일관된 성능 향상, 4층에서는 saturation/over-smoothing. Attention 제거 시 성능 하락 → relation-aware weighting이 핵심. TransR pretraining이 cold entity에 특히 유효.

Insights

KG를 추천과 joint로 학습할 때 representation alignment가 개선됨.
Attention은 해석 가능성과 성능을 동시에 제공.
Bi-Interaction aggregator(sum + element-wise product)가 feature interaction을 강화.

Discussion Points

KG 품질이 낮거나 sparse한 도메인에서 성능 보증?
시간적 dynamics(세션 기반)는 어떻게 통합?
LLM 기반 embedding과 결합 시 TransR이 여전히 필요?

메타데이터 table

항목	내용
저자	Xiang Wang, Xiangnan He, Yixin Cao, Meng Liu, Tat-Seng Chua
학회	KDD 2019
코드	https://github.com/xiangwang1223/knowledge_graph_attention_network
데이터셋	Amazon-book, Last-FM, Yelp2018
태스크	Top-K Recommendation
주요 지표	Recall@20, NDCG@20

왜 이 연구를 하는가?

추천 시스템은 데이터 희소성과 cold-start 문제에 취약하며, KG는 item attribute와 관계 지식을 풍부하게 제공하지만 기존 방법들은 (i) meta-path 기반으로 도메인 전문가 설계가 필요하거나 (ii) regularization 항 수준으로만 활용해 고차 관계 전파가 제한적이다. CKG 위에서 attention 기반 GNN으로 end-to-end, 고차, relation-aware 추천을 가능하게 하는 통합 프레임워크가 필요하다.

방법 (Method)

flowchart TD
    A[User-Item Interactions] --> C[Collaborative Knowledge Graph CKG]
    B[Knowledge Graph h,r,t] --> C
    C --> D[Embedding Layer: TransR]
    D --> E[Attentive Embedding Propagation Layer l=1..L]
    E --> F{Aggregator}
    F -->|GCN| G1[sum + nonlinear]
    F -->|GraphSage| G2[concat + nonlinear]
    F -->|Bi-Interaction| G3[sum + element-wise product]
    G1 --> H[Layer Aggregation: concat e0..eL]
    G2 --> H
    G3 --> H
    H --> I[Prediction: inner product]
    I --> J[BPR Loss]
    D --> K[KG Loss: TransR margin]
    J --> L[Joint Alternating Optimization]
    K --> L

Attention 계수: π(h,r,t) = (W_r e_t)^T tanh(W_r e_h + e_r), softmax로 정규화.
최종 임베딩: e*_u = e_u^(0) || e_u^(1) || … || e_u^(L).

발견 table

관찰	증거	함의
모든 데이터셋에서 SOTA 초과	Table 3	KG joint propagation 유효
3-hop이 sweet spot	Layer study	over-smoothing 존재
Attention 제거 시 성능 하락	Ablation	relation-aware weighting 필요
Bi-Interaction > GCN/GraphSage	Aggregator ablation	multiplicative 상호작용 중요
Sparse 사용자 그룹에서 큰 개선	User group study	KG가 cold-start 보완

이론적 의의

GNN + KG embedding + attention을 단일 프레임워크로 통합하여 message passing 관점의 추천 이론을 정립.
Collaborative Knowledge Graph 개념은 이후 KGCN-LS, KGIN, MCCLK 등 후속 연구의 표준 기반이 됨.
Attention 해석을 통해 추천 근거(rationale)를 노출하는 explainable recommendation 연구와 연결.

재현성 및 신뢰도 평가 table

항목	평가	근거
데이터 공개	A	3개 공개 벤치마크 + 전처리 공개
코드 공개	A	공식 TensorFlow 구현 제공
하이퍼파라미터 문서화	A	embedding dim, layer, lr 등 명시
통계적 유의성	B	단일 run 평균 위주, std 일부 제공
일반화	A	3개 상이 도메인 검증
총평	A	커뮤니티에서 수천 회 재현/확장

원자적 인사이트

고차 relation-aware propagation은 단순 depth 확장보다 attention을 통한 relation-specific weighting과 결합될 때 비약적 성능 향상을 준다. Ablation에서 attention 제거만으로도 성능이 baseline 수준으로 회귀함.
CF 상호작용과 KG triple을 하나의 그래프(CKG)로 통합하고 joint하게 message passing하면, 별도 feature engineering 없이 attribute-level 유사도까지 임베딩에 자연스럽게 녹아든다. 이는 이후 추천 GNN 설계의 de facto pattern이 되었다.
Bi-Interaction aggregator(sum + Hadamard)는 additive와 multiplicative feature interaction을 함께 캡처하여 FM 계열 장점을 GNN에 이식한 형태로, 단순 GCN보다 일관되게 우수.

핵심 용어 정리

Collaborative Knowledge Graph (CKG): user-item 상호작용을 특별한 relation으로 포함시킨 KG.
TransR: entity와 relation을 분리된 공간에서 projection하여 h + r ≈ t를 학습하는 KG embedding.
Attentive Embedding Propagation: relation-aware attention으로 이웃 노드 정보를 가중 합산하는 GNN 레이어.
Bi-Interaction Aggregator: e_N의 sum과 e_h ⊙ e_N의 element-wise product를 결합하는 aggregator.
BPR Loss: Bayesian Personalized Ranking, positive-negative pair 기반 implicit feedback 손실.
High-order Connectivity: 그래프 상 L-hop 경로로 연결되는 관계 정보.

Juhyeon's Blog

탐색기

KGAT- Knowledge Graph Attention Network for Recommendation