Towards Ontology-Enhanced Representation Learning forLarge Language Models
8분 분량
Introduction
대규모 언어 모델(LLM)은 일반적인 텍스트 표현 학습에 뛰어나지만, 특정 도메인의 세밀한 의미적 관계(fine-grained semantic relationships)를 정확히 포착하는 데 한계가 있음
온톨로지(ontology)는 도메인 지식을 체계적으로 형식화하는 구조로, 개념 간 계층 관계(is-a relations), 동의어(synonyms), 정의(descriptions) 등 풍부한 언어적·구조적 정보를 포함함
본 논문은 참조 온톨로지(reference ontology)의 지식을 embedding-LLM에 주입(infuse)하여 도메인 특화 문장 유사도 평가 능력을 향상시키는 방법을 제안함
GPT-3.5-turbo를 활용하여 온톨로지 개념의 합성 정의(synthetic definitions)를 생성하고, contrastive learning 프레임워크로 target embedding-LLM을 fine-tuning함
생의학 질병 온톨로지 MONDO를 사용하여 평가한 결과, 도메인 내(in-domain) 성능 향상과 도메인 외(out-of-domain) 성능 유지를 동시에 달성함
Related Papers
Self-Alignment Pretraining for Biomedical Entity Representations (SapBERT) (Liu et al., 2021): UMLS의 동의어 쌍을 활용한 metric learning 기반 사전학습으로 biomedical entity linking에서 SOTA 달성. 본 논문의 baseline 모델 중 하나로, 온톨로지 동의어를 활용한 표현 학습의 선행 연구
SimCSE: Simple Contrastive Learning of Sentence Embeddings (Gao et al., 2021): dropout을 noise로 활용한 비지도 contrastive learning과 NLI 데이터셋 기반 지도 학습 프레임워크를 제안. 본 논문의 contrastive learning 방법론의 이론적 기반
Improving Text Embeddings with Large Language Models (Wang et al., 2023): GPT-3.5-turbo와 GPT-4를 사용하여 합성 학습 데이터를 생성하고 embedding 모델을 fine-tuning. 본 논문의 합성 정의 생성 전략에 영감을 제공
PubMedBERT: Domain-Specific Language Model Pretraining for Biomedical NLP (Gu et al., 2021): PubMed 초록으로 처음부터 사전학습한 도메인 특화 언어 모델. 본 논문의 baseline 모델 중 하나
Ontology-driven LLM Fine-tuning (Baldazzi et al., 2023): 온톨로지 기반 지식을 LLM fine-tuning에 통합하는 접근법으로, 본 논문과 유사한 knowledge integration 방향을 탐구
Methods
온톨로지 지식 추출: MONDO 온톨로지(2024년 4월 버전)에서 24,201개 질병 개념, 약 75,000개 동의어, 36,459개 is-a 관계를 추출
합성 정의 생성 (Synthetic Definition Generation): GPT-3.5-turbo에 프롬프트를 제공하여 각 온톨로지 개념 동의어에 대한 한 문장 정의를 생성. 총 57,692개의 합성 정의 생성
Positive Pair 구성: 동의어 치환(synonym substitution) 방식으로 같은 개념의 서로 다른 동의어로 정의를 재작성하여 positive pair를 생성
Hard Negative 선택: embedding 유사도와 분류학적 관계(taxonomic relations)를 기반으로, 조상/후손 관계가 아니면서 의미적으로 가장 유사한 개념을 hard negative로 선택
Contrastive Learning: InfoNCE loss 함수를 사용하며, temperature τ = 0.05, cosine similarity 기반으로 약 400,000개의 학습 샘플을 생성
Fine-tuning 설정: batch size 24, learning rate 1e-8 (linear warmup), weight decay 1e-4, 최대 2 epochs (epoch 1 이후 최적 모델 선택), Sentence Transformers 프레임워크 사용
평가 데이터셋: BIOSSES (100 쌍), STS12-16 (총 12,544 쌍)에서 질병 언급 문장 쌍을 별도로 추출하여 도메인 내 성능 평가
평가 지표: Spearman’s correlation coefficient
방법론 다이어그램
graph TD
A[MONDO 온톨로지] --> B[언어적 정보 추출<br/>동의어, 설명]
A --> C[구조적 정보 추출<br/>is-a 관계]
B --> D[GPT-3.5-turbo<br/>합성 정의 생성]
C --> D
D --> E[57,692개 합성 정의]
E --> F[Positive Pairs<br/>동의어 치환]
E --> G[Hard Negatives<br/>유사도 + 분류학적 관계 기반]
F --> H[학습 데이터셋<br/>~400,000 samples]
G --> H
H --> I[Contrastive Learning<br/>InfoNCE Loss, τ=0.05]
I --> J[Fine-tuned Embedding-LLM]
J --> K[평가: BIOSSES + STS12-16<br/>Spearman Correlation]
Results
MONDO 온톨로지 지식을 주입한 모델(_kinf)이 원본 모델(_orig) 대비 도메인 내(질병 관련) 문장 유사도에서 일관된 성능 향상을 보임
PubMedBERT는 BIOSSES 전체에서 53.74 → 71.23 (+17.49), 질병 문장에서 69.80 → 77.41 (+7.61)로 가장 큰 절대적 향상 달성