Towards Ontology-Enhanced Representation Learning for Large Language Models

Digest (CISELQ)

  • Context: 도메인 특화 지식이 임베딩 LLM에 충분히 반영되지 않아 전문 분야(특히 생의학)에서 의미 유사도 판단이 취약하다. 온톨로지는 도메인 지식을 개념(concept) 및 is-a 관계로 조직화하며, 이를 LLM에 주입하려는 시도는 꾸준히 진행되어 왔다.
  • Issue: 기존 지식 주입 방법은 triple 기반 KG 주입이 많아 (i) 자연어 기술(description)이 희박하고, (ii) 문장 수준 임베딩 공간에 자연스럽게 정렬되지 않으며, (iii) out-of-domain 성능 저하(catastrophic forgetting)가 발생한다.
  • Solution: Reference ontology(MONDO)에서 synonyms, 텍스트 description, is-a 계층 정보를 뽑은 뒤, GPT-3.5-turbo를 이용해 각 개념에 대한 “포괄적 개념 정의(concept definition)” 문장을 생성하고, 이를 positive pair로 사용하는 contrastive fine-tuning으로 embedding-LLM을 업데이트한다.
  • Evaluation: MONDO 질병 온톨로지를 대상으로 BioLORD, MeSH, PubMedBERT 기반 임베딩 모델 등에 적용하여 in-domain 생의학 문장 유사도(MedSTS, BIOSSES 등)와 out-of-domain 일반 STS 성능을 모두 측정.
  • Limitation: 단일 도메인(질병) 온톨로지에만 검증되었고, 생성 LLM 품질에 개념 정의가 의존하며, 관계 유형이 is-a 중심으로 제한적이다.
  • Quick take: “온톨로지를 텍스트 정의로 풀어내서 contrastive로 집어넣으면, 도메인 유사도는 올리고 일반 성능은 거의 해치지 않는다”를 실증한 지식 주입 파이프라인.

섹션별 요약

Introduction

  • 온톨로지는 개념·동의어·관계를 형식화한 표준화된 지식 자원으로, 생의학(MONDO, SNOMED), 화학(ChEBI) 등에서 광범위하게 활용된다.
  • 현재 embedding-LLM들은 사전학습 코퍼스에 노출된 범위만큼만 전문 용어를 이해하므로, 온톨로지 지식을 명시적으로 주입하면 도메인 특화 의미 이해를 강화할 수 있다는 가설을 제시.
  • 기존 KG 주입 접근(예: ERNIE, K-BERT, KEPLER)은 구조적 subgraph 기반이며 문장 임베딩 목적함수와 괴리가 있음을 지적.

Methods

  • Step 1 Concept assembly: 온톨로지에서 각 concept의 label, synonyms, textual definition, is-a parent/child 관계를 추출.
  • Step 2 Concept definition generation: GPT-3.5-turbo에게 위 정보를 프롬프트로 제공하여 “해당 개념을 설명하는 풍부한 자연어 정의” 문장 세트를 생성.
  • Step 3 Contrastive fine-tuning: 같은 개념으로부터 생성된 서로 다른 정의 문장들을 positive pair, 다른 개념을 negative로 사용하여 InfoNCE-style loss로 embedding-LLM을 추가 학습.
  • Step 4 Evaluation: 도메인 내 생의학 STS 벤치마크와 일반 도메인 STS를 함께 측정해 forgetting 여부 판정.

Results

평가 축관찰
In-domain (생의학 STS)온톨로지 주입 후 baseline 대비 상관계수가 유의하게 상승
Out-of-domain (일반 STS)성능 하락이 미미하거나 없음 (ontology infusion이 catastrophic forgetting을 초래하지 않음)
Ablation: concept definition 수개념당 정의 개수가 많아질수록 in-domain 성능이 개선
모델별 적용성다양한 베이스 embedding-LLM에서 동일 경향이 재현됨

Discussion

  • 온톨로지를 원시 triple 형태가 아니라 “LLM-친화적 자연어 정의”로 변환하는 것이 핵심 트릭. 이를 통해 embedding space의 contrastive 학습 목적과 매끄럽게 결합.
  • is-a 관계를 명시적 loss 항이 아니라 parent/child를 포함한 풍부한 정의 문장에 자연어로 녹여 넣음.
  • generative LLM이 “지식 증폭기(knowledge amplifier)“로 사용되는 구조: 구조적 지식 → 자연어 pseudo-text → contrastive signal.

Insights

  • 지식 주입은 “어떤 지식을 넣느냐”만큼 “어떤 목적함수에 맞게 가공하느냐”가 중요.
  • Ontology → text 변환은 description-rich domain(의료)에서 특히 효과적.
  • Out-of-domain 보존이 별도 regularization 없이 달성되었다는 점은 contrastive pair 구성의 온건함을 시사.

Discussion Points

  • 온톨로지의 non-taxonomic relation(part-of, causes 등)을 포함하면 추가 이득이 가능할까?
  • 개념 정의 생성에 사용된 LLM(GPT-3.5)의 hallucination이 downstream 성능에 미치는 영향은?
  • 범용 사전학습 단계(pre-training)에 주입하면 어떤 변화가 나타날지?

메타데이터

항목
TitleTowards Ontology-Enhanced Representation Learning for Large Language Models
AuthorsFrancesco Ronzano, Jay Nanavati
VenuearXiv (2024)
arXiv2405.20527
DOI10.48550/arXiv.2405.20527
DomainBiomedical (MONDO disease ontology)
Base modelsBiomedical embedding-LLMs (BioLORD 등)
Helper LLMGPT-3.5-turbo

왜 이 연구를 하는가?

도메인 특화 텍스트 검색·RAG·환자 유사도 매칭 등 실용적 응용에서 embedding-LLM의 의미 해상도는 결정적이다. 그러나 생의학처럼 용어 다양성(동의어, 약어, 계층)과 개념 분포가 복잡한 도메인에서 일반 코퍼스 기반 모델은 오작동이 잦다. 온톨로지는 이 문제를 해결할 가장 정돈된 지식 자원이지만, 기존 KG 주입법은 문장 임베딩 학습과 목적함수가 어긋난다. 본 연구는 **“온톨로지를 LLM이 직접 학습 가능한 자연어 정의로 번역한 뒤 contrastive로 주입한다”**는 매우 실용적 가설을 검증함으로써, 구조적 지식을 임베딩 공간에 정렬시키는 간결한 레시피를 제시한다.

방법 (Method)

flowchart LR
    A[Reference Ontology<br/>MONDO] --> B[Concept 추출<br/>label/synonyms/def/is-a]
    B --> C[GPT-3.5-turbo<br/>Concept Definition 생성]
    C --> D[Positive Pair<br/>동일 개념의 다양한 정의]
    D --> E[Contrastive Fine-tuning<br/>InfoNCE loss]
    E --> F[Ontology-Enhanced<br/>Embedding LLM]
    F --> G1[In-domain STS 평가]
    F --> G2[Out-of-domain STS 평가]
  • 핵심은 (1) 온톨로지의 언어적/구조적 신호를 잃지 않고 자연어 문장으로 압축하는 프롬프트 설계, (2) 생성된 정의 집합 내부에서 positive/negative를 추출하는 pair sampling 전략.

발견 (Findings)

Finding의미
In-domain 유사도 성능 향상온톨로지 지식이 embedding space의 의미 해상도를 실제로 높임
Out-of-domain 유지좁은 범위의 concept pair-only 학습이 general 표현을 크게 손상시키지 않음
정의 개수 ↑ → 성능 ↑data augmentation으로서 LLM 생성 정의의 유효성
모델 비의존성특정 encoder에 특화된 트릭이 아니라 일반적 recipe

이론적 의의

  • Symbolic KB → Neural embedding 주입 문제를 “목적함수 호환 문제”로 재정의. Triple/graph가 아니라 pseudo-text를 매개로 변환하면, contrastive·MLM 등 기존 표현학습 손실과 즉시 결합 가능.
  • Generative LLM을 “지식 가용화 도구(knowledge verbalizer)“로 사용하는 양상은, 대형모델 → 소형 임베딩 모델로의 지식 전이(distillation-like) 흐름과도 연결된다.

재현성 및 신뢰도 평가

기준평가근거
Evidence QualityB생의학 도메인에서 복수 벤치마크 상관계수 개선 보고. 단, 도메인 단일성 탓에 일반화 주장은 제한
ReproducibilityBMONDO·GPT-3.5·공개 embedding 모델 기반이라 개념적으로 재현 가능. 단, 생성 프롬프트/하이퍼파라미터의 완전한 공개 여부에 따라 변동
Statistical rigorB상관계수 및 delta 보고, 다수 seed 평균 여부는 논문 본문 참조
Data availabilityAMONDO는 공개 온톨로지, 평가 STS도 공개
NoveltyB주입 파이프라인 자체는 단순하지만 ontology+contrastive+LLM verbalization 조합은 실용적 novelty

관련 연구

  • ERNIE (Zhang et al., 2019): entity-level KG 주입을 MLM 단계에서 수행.
  • K-BERT (Liu et al., 2020): 입력 문장에 KG triple을 삽입.
  • KEPLER (Wang et al., 2021): KG embedding과 MLM을 joint로 학습.
  • BioLORD (Remy et al., 2022): 생의학 개념 정의를 contrastive로 학습한 선행 연구 — 본 논문과 가장 가까운 baseline.
  • SapBERT: UMLS synonym pair를 contrastive로 학습.

원자적 인사이트

  1. Ontology를 그래프가 아니라 “정의 문장 집합”으로 다루면 기존 contrastive encoder에 바로 꽂을 수 있다. 이는 지식 주입의 호환성 장벽을 근본적으로 낮춘다.
  2. LLM은 지식의 verbalizer이자 증폭기다. 동일 개념에 대해 다양한 paraphrase를 생성해 주면 contrastive positive pool이 풍부해지며, 이것이 곧 in-domain 성능 상승의 핵심 동력.
  3. 좁은 도메인 fine-tuning이 반드시 일반 성능을 깎지는 않는다. Pair 구성이 온건하고(동일 concept 내부 paraphrase 수준), 기존 representation을 크게 밀어내지 않으면 OOD forgetting은 제한적이다.
  4. 온톨로지의 is-a 계층은 loss 항으로 강제하지 않아도 자연어 정의에 삽입되는 것만으로 암묵적 학습 신호가 된다.

핵심 용어 정리

  • Ontology: 도메인 개념과 관계를 형식 논리(보통 OWL)로 기술한 지식 모델. 예: MONDO(질병), GO(유전자 기능), ChEBI(화학).
  • Embedding-LLM: 문장/문서 임베딩 목적으로 학습된 LLM (예: SBERT, BioLORD). 생성보다는 표현학습이 주 목적.
  • Knowledge Infusion: 외부 지식 자원을 파라미터 또는 표현에 주입하는 기법 총칭.
  • Concept Definition: 온톨로지의 개념에 대응하는 자연어 설명 문장. 본 논문에서는 LLM이 합성.
  • Contrastive Fine-tuning: positive pair는 가깝게, negative pair는 멀게 만드는 InfoNCE 계열 손실로 임베딩을 조정하는 학습.
  • Is-a Relation: subclass/subsumption 관계. 온톨로지 계층의 뼈대.
  • Catastrophic Forgetting: 새로운 데이터 학습 후 기존 능력이 저하되는 현상.

paper LLM Ontology RepresentationLearning ContrastiveLearning KnowledgeInjection Biomedical Training