Towards Ontology-Enhanced Representation Learning for Large Language Models
Digest (CISELQ)
Context: 도메인 특화 지식이 임베딩 LLM에 충분히 반영되지 않아 전문 분야(특히 생의학)에서 의미 유사도 판단이 취약하다. 온톨로지는 도메인 지식을 개념(concept) 및 is-a 관계로 조직화하며, 이를 LLM에 주입하려는 시도는 꾸준히 진행되어 왔다.
Issue: 기존 지식 주입 방법은 triple 기반 KG 주입이 많아 (i) 자연어 기술(description)이 희박하고, (ii) 문장 수준 임베딩 공간에 자연스럽게 정렬되지 않으며, (iii) out-of-domain 성능 저하(catastrophic forgetting)가 발생한다.
Solution: Reference ontology(MONDO)에서 synonyms, 텍스트 description, is-a 계층 정보를 뽑은 뒤, GPT-3.5-turbo를 이용해 각 개념에 대한 “포괄적 개념 정의(concept definition)” 문장을 생성하고, 이를 positive pair로 사용하는 contrastive fine-tuning으로 embedding-LLM을 업데이트한다.
Evaluation: MONDO 질병 온톨로지를 대상으로 BioLORD, MeSH, PubMedBERT 기반 임베딩 모델 등에 적용하여 in-domain 생의학 문장 유사도(MedSTS, BIOSSES 등)와 out-of-domain 일반 STS 성능을 모두 측정.
Limitation: 단일 도메인(질병) 온톨로지에만 검증되었고, 생성 LLM 품질에 개념 정의가 의존하며, 관계 유형이 is-a 중심으로 제한적이다.
Quick take: “온톨로지를 텍스트 정의로 풀어내서 contrastive로 집어넣으면, 도메인 유사도는 올리고 일반 성능은 거의 해치지 않는다”를 실증한 지식 주입 파이프라인.
섹션별 요약
Introduction
온톨로지는 개념·동의어·관계를 형식화한 표준화된 지식 자원으로, 생의학(MONDO, SNOMED), 화학(ChEBI) 등에서 광범위하게 활용된다.
현재 embedding-LLM들은 사전학습 코퍼스에 노출된 범위만큼만 전문 용어를 이해하므로, 온톨로지 지식을 명시적으로 주입하면 도메인 특화 의미 이해를 강화할 수 있다는 가설을 제시.
기존 KG 주입 접근(예: ERNIE, K-BERT, KEPLER)은 구조적 subgraph 기반이며 문장 임베딩 목적함수와 괴리가 있음을 지적.
Methods
Step 1 Concept assembly: 온톨로지에서 각 concept의 label, synonyms, textual definition, is-a parent/child 관계를 추출.
Step 2 Concept definition generation: GPT-3.5-turbo에게 위 정보를 프롬프트로 제공하여 “해당 개념을 설명하는 풍부한 자연어 정의” 문장 세트를 생성.
Step 3 Contrastive fine-tuning: 같은 개념으로부터 생성된 서로 다른 정의 문장들을 positive pair, 다른 개념을 negative로 사용하여 InfoNCE-style loss로 embedding-LLM을 추가 학습.
Step 4 Evaluation: 도메인 내 생의학 STS 벤치마크와 일반 도메인 STS를 함께 측정해 forgetting 여부 판정.
Results
평가 축
관찰
In-domain (생의학 STS)
온톨로지 주입 후 baseline 대비 상관계수가 유의하게 상승
Out-of-domain (일반 STS)
성능 하락이 미미하거나 없음 (ontology infusion이 catastrophic forgetting을 초래하지 않음)
Ablation: concept definition 수
개념당 정의 개수가 많아질수록 in-domain 성능이 개선
모델별 적용성
다양한 베이스 embedding-LLM에서 동일 경향이 재현됨
Discussion
온톨로지를 원시 triple 형태가 아니라 “LLM-친화적 자연어 정의”로 변환하는 것이 핵심 트릭. 이를 통해 embedding space의 contrastive 학습 목적과 매끄럽게 결합.
is-a 관계를 명시적 loss 항이 아니라 parent/child를 포함한 풍부한 정의 문장에 자연어로 녹여 넣음.
generative LLM이 “지식 증폭기(knowledge amplifier)“로 사용되는 구조: 구조적 지식 → 자연어 pseudo-text → contrastive signal.
Insights
지식 주입은 “어떤 지식을 넣느냐”만큼 “어떤 목적함수에 맞게 가공하느냐”가 중요.
Ontology → text 변환은 description-rich domain(의료)에서 특히 효과적.
Out-of-domain 보존이 별도 regularization 없이 달성되었다는 점은 contrastive pair 구성의 온건함을 시사.
Discussion Points
온톨로지의 non-taxonomic relation(part-of, causes 등)을 포함하면 추가 이득이 가능할까?
개념 정의 생성에 사용된 LLM(GPT-3.5)의 hallucination이 downstream 성능에 미치는 영향은?
범용 사전학습 단계(pre-training)에 주입하면 어떤 변화가 나타날지?
메타데이터
항목
값
Title
Towards Ontology-Enhanced Representation Learning for Large Language Models
Authors
Francesco Ronzano, Jay Nanavati
Venue
arXiv (2024)
arXiv
2405.20527
DOI
10.48550/arXiv.2405.20527
Domain
Biomedical (MONDO disease ontology)
Base models
Biomedical embedding-LLMs (BioLORD 등)
Helper LLM
GPT-3.5-turbo
왜 이 연구를 하는가?
도메인 특화 텍스트 검색·RAG·환자 유사도 매칭 등 실용적 응용에서 embedding-LLM의 의미 해상도는 결정적이다. 그러나 생의학처럼 용어 다양성(동의어, 약어, 계층)과 개념 분포가 복잡한 도메인에서 일반 코퍼스 기반 모델은 오작동이 잦다. 온톨로지는 이 문제를 해결할 가장 정돈된 지식 자원이지만, 기존 KG 주입법은 문장 임베딩 학습과 목적함수가 어긋난다. 본 연구는 **“온톨로지를 LLM이 직접 학습 가능한 자연어 정의로 번역한 뒤 contrastive로 주입한다”**는 매우 실용적 가설을 검증함으로써, 구조적 지식을 임베딩 공간에 정렬시키는 간결한 레시피를 제시한다.
방법 (Method)
flowchart LR
A[Reference Ontology<br/>MONDO] --> B[Concept 추출<br/>label/synonyms/def/is-a]
B --> C[GPT-3.5-turbo<br/>Concept Definition 생성]
C --> D[Positive Pair<br/>동일 개념의 다양한 정의]
D --> E[Contrastive Fine-tuning<br/>InfoNCE loss]
E --> F[Ontology-Enhanced<br/>Embedding LLM]
F --> G1[In-domain STS 평가]
F --> G2[Out-of-domain STS 평가]
핵심은 (1) 온톨로지의 언어적/구조적 신호를 잃지 않고 자연어 문장으로 압축하는 프롬프트 설계, (2) 생성된 정의 집합 내부에서 positive/negative를 추출하는 pair sampling 전략.
발견 (Findings)
Finding
의미
In-domain 유사도 성능 향상
온톨로지 지식이 embedding space의 의미 해상도를 실제로 높임
Out-of-domain 유지
좁은 범위의 concept pair-only 학습이 general 표현을 크게 손상시키지 않음
정의 개수 ↑ → 성능 ↑
data augmentation으로서 LLM 생성 정의의 유효성
모델 비의존성
특정 encoder에 특화된 트릭이 아니라 일반적 recipe
이론적 의의
Symbolic KB → Neural embedding 주입 문제를 “목적함수 호환 문제”로 재정의. Triple/graph가 아니라 pseudo-text를 매개로 변환하면, contrastive·MLM 등 기존 표현학습 손실과 즉시 결합 가능.
Generative LLM을 “지식 가용화 도구(knowledge verbalizer)“로 사용하는 양상은, 대형모델 → 소형 임베딩 모델로의 지식 전이(distillation-like) 흐름과도 연결된다.
재현성 및 신뢰도 평가
기준
평가
근거
Evidence Quality
B
생의학 도메인에서 복수 벤치마크 상관계수 개선 보고. 단, 도메인 단일성 탓에 일반화 주장은 제한
Reproducibility
B
MONDO·GPT-3.5·공개 embedding 모델 기반이라 개념적으로 재현 가능. 단, 생성 프롬프트/하이퍼파라미터의 완전한 공개 여부에 따라 변동
Statistical rigor
B
상관계수 및 delta 보고, 다수 seed 평균 여부는 논문 본문 참조
Data availability
A
MONDO는 공개 온톨로지, 평가 STS도 공개
Novelty
B
주입 파이프라인 자체는 단순하지만 ontology+contrastive+LLM verbalization 조합은 실용적 novelty
관련 연구
ERNIE (Zhang et al., 2019): entity-level KG 주입을 MLM 단계에서 수행.
K-BERT (Liu et al., 2020): 입력 문장에 KG triple을 삽입.
KEPLER (Wang et al., 2021): KG embedding과 MLM을 joint로 학습.
BioLORD (Remy et al., 2022): 생의학 개념 정의를 contrastive로 학습한 선행 연구 — 본 논문과 가장 가까운 baseline.
SapBERT: UMLS synonym pair를 contrastive로 학습.
원자적 인사이트
Ontology를 그래프가 아니라 “정의 문장 집합”으로 다루면 기존 contrastive encoder에 바로 꽂을 수 있다. 이는 지식 주입의 호환성 장벽을 근본적으로 낮춘다.
LLM은 지식의 verbalizer이자 증폭기다. 동일 개념에 대해 다양한 paraphrase를 생성해 주면 contrastive positive pool이 풍부해지며, 이것이 곧 in-domain 성능 상승의 핵심 동력.
좁은 도메인 fine-tuning이 반드시 일반 성능을 깎지는 않는다. Pair 구성이 온건하고(동일 concept 내부 paraphrase 수준), 기존 representation을 크게 밀어내지 않으면 OOD forgetting은 제한적이다.
온톨로지의 is-a 계층은 loss 항으로 강제하지 않아도 자연어 정의에 삽입되는 것만으로 암묵적 학습 신호가 된다.
핵심 용어 정리
Ontology: 도메인 개념과 관계를 형식 논리(보통 OWL)로 기술한 지식 모델. 예: MONDO(질병), GO(유전자 기능), ChEBI(화학).
Embedding-LLM: 문장/문서 임베딩 목적으로 학습된 LLM (예: SBERT, BioLORD). 생성보다는 표현학습이 주 목적.
Knowledge Infusion: 외부 지식 자원을 파라미터 또는 표현에 주입하는 기법 총칭.
Concept Definition: 온톨로지의 개념에 대응하는 자연어 설명 문장. 본 논문에서는 LLM이 합성.
Contrastive Fine-tuning: positive pair는 가깝게, negative pair는 멀게 만드는 InfoNCE 계열 손실로 임베딩을 조정하는 학습.
Is-a Relation: subclass/subsumption 관계. 온톨로지 계층의 뼈대.
Catastrophic Forgetting: 새로운 데이터 학습 후 기존 능력이 저하되는 현상.