Introduction


  • 대규모 언어 모델(LLM)은 일반적인 텍스트 표현 학습에 뛰어나지만, 특정 도메인의 세밀한 의미적 관계(fine-grained semantic relationships)를 정확히 포착하는 데 한계가 있음
  • 온톨로지(ontology)는 도메인 지식을 체계적으로 형식화하는 구조로, 개념 간 계층 관계(is-a relations), 동의어(synonyms), 정의(descriptions) 등 풍부한 언어적·구조적 정보를 포함함
  • 본 논문은 참조 온톨로지(reference ontology)의 지식을 embedding-LLM에 주입(infuse)하여 도메인 특화 문장 유사도 평가 능력을 향상시키는 방법을 제안함
  • GPT-3.5-turbo를 활용하여 온톨로지 개념의 합성 정의(synthetic definitions)를 생성하고, contrastive learning 프레임워크로 target embedding-LLM을 fine-tuning함
  • 생의학 질병 온톨로지 MONDO를 사용하여 평가한 결과, 도메인 내(in-domain) 성능 향상과 도메인 외(out-of-domain) 성능 유지를 동시에 달성함

Related Papers


  • Self-Alignment Pretraining for Biomedical Entity Representations (SapBERT) (Liu et al., 2021): UMLS의 동의어 쌍을 활용한 metric learning 기반 사전학습으로 biomedical entity linking에서 SOTA 달성. 본 논문의 baseline 모델 중 하나로, 온톨로지 동의어를 활용한 표현 학습의 선행 연구
  • SimCSE: Simple Contrastive Learning of Sentence Embeddings (Gao et al., 2021): dropout을 noise로 활용한 비지도 contrastive learning과 NLI 데이터셋 기반 지도 학습 프레임워크를 제안. 본 논문의 contrastive learning 방법론의 이론적 기반
  • Improving Text Embeddings with Large Language Models (Wang et al., 2023): GPT-3.5-turbo와 GPT-4를 사용하여 합성 학습 데이터를 생성하고 embedding 모델을 fine-tuning. 본 논문의 합성 정의 생성 전략에 영감을 제공
  • PubMedBERT: Domain-Specific Language Model Pretraining for Biomedical NLP (Gu et al., 2021): PubMed 초록으로 처음부터 사전학습한 도메인 특화 언어 모델. 본 논문의 baseline 모델 중 하나
  • Ontology-driven LLM Fine-tuning (Baldazzi et al., 2023): 온톨로지 기반 지식을 LLM fine-tuning에 통합하는 접근법으로, 본 논문과 유사한 knowledge integration 방향을 탐구

Methods


  • 온톨로지 지식 추출: MONDO 온톨로지(2024년 4월 버전)에서 24,201개 질병 개념, 약 75,000개 동의어, 36,459개 is-a 관계를 추출
  • 합성 정의 생성 (Synthetic Definition Generation): GPT-3.5-turbo에 프롬프트를 제공하여 각 온톨로지 개념 동의어에 대한 한 문장 정의를 생성. 총 57,692개의 합성 정의 생성
  • Positive Pair 구성: 동의어 치환(synonym substitution) 방식으로 같은 개념의 서로 다른 동의어로 정의를 재작성하여 positive pair를 생성
  • Hard Negative 선택: embedding 유사도와 분류학적 관계(taxonomic relations)를 기반으로, 조상/후손 관계가 아니면서 의미적으로 가장 유사한 개념을 hard negative로 선택
  • Contrastive Learning: InfoNCE loss 함수를 사용하며, temperature τ = 0.05, cosine similarity 기반으로 약 400,000개의 학습 샘플을 생성
  • Fine-tuning 설정: batch size 24, learning rate 1e-8 (linear warmup), weight decay 1e-4, 최대 2 epochs (epoch 1 이후 최적 모델 선택), Sentence Transformers 프레임워크 사용
  • 평가 데이터셋: BIOSSES (100 쌍), STS12-16 (총 12,544 쌍)에서 질병 언급 문장 쌍을 별도로 추출하여 도메인 내 성능 평가
  • 평가 지표: Spearman’s correlation coefficient

방법론 다이어그램

graph TD
    A[MONDO 온톨로지] --> B[언어적 정보 추출<br/>동의어, 설명]
    A --> C[구조적 정보 추출<br/>is-a 관계]
    B --> D[GPT-3.5-turbo<br/>합성 정의 생성]
    C --> D
    D --> E[57,692개 합성 정의]
    E --> F[Positive Pairs<br/>동의어 치환]
    E --> G[Hard Negatives<br/>유사도 + 분류학적 관계 기반]
    F --> H[학습 데이터셋<br/>~400,000 samples]
    G --> H
    H --> I[Contrastive Learning<br/>InfoNCE Loss, τ=0.05]
    I --> J[Fine-tuned Embedding-LLM]
    J --> K[평가: BIOSSES + STS12-16<br/>Spearman Correlation]

Results


  • MONDO 온톨로지 지식을 주입한 모델(_kinf)이 원본 모델(_orig) 대비 도메인 내(질병 관련) 문장 유사도에서 일관된 성능 향상을 보임
  • PubMedBERT는 BIOSSES 전체에서 53.74 → 71.23 (+17.49), 질병 문장에서 69.80 → 77.41 (+7.61)로 가장 큰 절대적 향상 달성
  • SapBERT는 BIOSSES에서 81.86 → 85.45 (+3.59), STS16 질병 문장에서 89.73 → 92.86 (+3.13)로 향상
  • GIST 모델은 BIOSSES 전체에서 87.96 → 88.86 (+0.90), 질병 문장에서 89.66 → 92.05 (+2.39)로 향상
  • 이미 성능이 높은 모델(GTEbase, GIST)에서는 상대적으로 작지만 일관된 향상을 보였으며, 단순한 모델(PubMedBERT)에서 더 큰 향상폭을 보임
  • 도메인 외(out-of-domain) 성능이 유지되어, 온톨로지 지식 주입이 일반적 표현 능력을 훼손하지 않음을 확인

BIOSSES 벤치마크 결과 (Spearman’s ρ)

ModelAll PairsDisease Pairs
PubMedBERT_orig53.7469.80
PubMedBERT_kinf71.2377.41
SapBERT_orig81.8683.21
SapBERT_kinf85.4584.79
GTEbase_orig87.2690.30
GTEbase_kinf87.4089.62
GIST_orig87.9689.66
GIST_kinf88.8692.05

STS 벤치마크 주요 결과 (Spearman’s ρ, Disease Pairs)

ModelSTS12STS13STS14STS15STS16
SapBERT_orig22.5936.6647.6444.5589.73
SapBERT_kinf25.3939.2952.0750.4092.86
GTEbase_orig61.0762.4167.2869.3387.89
GTEbase_kinf63.8559.8767.8972.8989.25
GIST_orig67.8756.5473.3371.9289.30
GIST_kinf68.3959.1773.7272.2491.22

Discussion


  • 주요 발견: 온톨로지의 언어적·구조적 지식을 contrastive learning으로 embedding-LLM에 주입하면, 해당 도메인의 문장 유사도 평가 성능이 향상되면서도 일반적인 성능은 유지됨
  • 모델 복잡도와 향상폭의 관계: 단순한 모델(PubMedBERT)에서 더 큰 절대적 향상을 보이고, 이미 고성능인 모델(GIST, GTEbase)에서는 작지만 일관된 향상을 보여, 온톨로지 지식의 보완적 역할을 시사함
  • 한계 1: 평가가 생의학 도메인(MONDO 온톨로지)에만 국한되어, 다른 도메인 온톨로지로의 일반화 가능성이 검증되지 않음
  • 한계 2: 문장 유사도 과제(STS)에서만 평가하여, entity linking, 분류 등 다른 downstream task에서의 효과는 확인되지 않음
  • 한계 3: 동의어 치환(synonym substitution) 기반 positive pair 생성 방식이 동의어가 부족한 온톨로지에서는 적용이 제한될 수 있음
  • 향후 연구 방향: 더 큰 LLM 아키텍처 및 다양한 도메인에서의 평가, 정의 생성 이외의 대안적 프롬프팅 전략 탐구, 유사도 과제 이외의 downstream task로 평가 확대, 다양한 세분화 수준(granularity)의 온톨로지에서의 실험이 제안됨