Introduction

대규모 언어 모델(LLM)은 일반적인 텍스트 표현 학습에 뛰어나지만, 특정 도메인의 세밀한 의미적 관계(fine-grained semantic relationships)를 정확히 포착하는 데 한계가 있음
온톨로지(ontology)는 도메인 지식을 체계적으로 형식화하는 구조로, 개념 간 계층 관계(is-a relations), 동의어(synonyms), 정의(descriptions) 등 풍부한 언어적·구조적 정보를 포함함
본 논문은 참조 온톨로지(reference ontology)의 지식을 embedding-LLM에 주입(infuse)하여 도메인 특화 문장 유사도 평가 능력을 향상시키는 방법을 제안함
GPT-3.5-turbo를 활용하여 온톨로지 개념의 합성 정의(synthetic definitions)를 생성하고, contrastive learning 프레임워크로 target embedding-LLM을 fine-tuning함
생의학 질병 온톨로지 MONDO를 사용하여 평가한 결과, 도메인 내(in-domain) 성능 향상과 도메인 외(out-of-domain) 성능 유지를 동시에 달성함

Self-Alignment Pretraining for Biomedical Entity Representations (SapBERT) (Liu et al., 2021): UMLS의 동의어 쌍을 활용한 metric learning 기반 사전학습으로 biomedical entity linking에서 SOTA 달성. 본 논문의 baseline 모델 중 하나로, 온톨로지 동의어를 활용한 표현 학습의 선행 연구
SimCSE: Simple Contrastive Learning of Sentence Embeddings (Gao et al., 2021): dropout을 noise로 활용한 비지도 contrastive learning과 NLI 데이터셋 기반 지도 학습 프레임워크를 제안. 본 논문의 contrastive learning 방법론의 이론적 기반
Improving Text Embeddings with Large Language Models (Wang et al., 2023): GPT-3.5-turbo와 GPT-4를 사용하여 합성 학습 데이터를 생성하고 embedding 모델을 fine-tuning. 본 논문의 합성 정의 생성 전략에 영감을 제공
PubMedBERT: Domain-Specific Language Model Pretraining for Biomedical NLP (Gu et al., 2021): PubMed 초록으로 처음부터 사전학습한 도메인 특화 언어 모델. 본 논문의 baseline 모델 중 하나
Ontology-driven LLM Fine-tuning (Baldazzi et al., 2023): 온톨로지 기반 지식을 LLM fine-tuning에 통합하는 접근법으로, 본 논문과 유사한 knowledge integration 방향을 탐구

Methods

온톨로지 지식 추출: MONDO 온톨로지(2024년 4월 버전)에서 24,201개 질병 개념, 약 75,000개 동의어, 36,459개 is-a 관계를 추출
합성 정의 생성 (Synthetic Definition Generation): GPT-3.5-turbo에 프롬프트를 제공하여 각 온톨로지 개념 동의어에 대한 한 문장 정의를 생성. 총 57,692개의 합성 정의 생성
Positive Pair 구성: 동의어 치환(synonym substitution) 방식으로 같은 개념의 서로 다른 동의어로 정의를 재작성하여 positive pair를 생성
Hard Negative 선택: embedding 유사도와 분류학적 관계(taxonomic relations)를 기반으로, 조상/후손 관계가 아니면서 의미적으로 가장 유사한 개념을 hard negative로 선택
Contrastive Learning: InfoNCE loss 함수를 사용하며, temperature τ = 0.05, cosine similarity 기반으로 약 400,000개의 학습 샘플을 생성
Fine-tuning 설정: batch size 24, learning rate 1e-8 (linear warmup), weight decay 1e-4, 최대 2 epochs (epoch 1 이후 최적 모델 선택), Sentence Transformers 프레임워크 사용
평가 데이터셋: BIOSSES (100 쌍), STS12-16 (총 12,544 쌍)에서 질병 언급 문장 쌍을 별도로 추출하여 도메인 내 성능 평가
평가 지표: Spearman’s correlation coefficient

방법론 다이어그램

graph TD
    A[MONDO 온톨로지] --> B[언어적 정보 추출<br/>동의어, 설명]
    A --> C[구조적 정보 추출<br/>is-a 관계]
    B --> D[GPT-3.5-turbo<br/>합성 정의 생성]
    C --> D
    D --> E[57,692개 합성 정의]
    E --> F[Positive Pairs<br/>동의어 치환]
    E --> G[Hard Negatives<br/>유사도 + 분류학적 관계 기반]
    F --> H[학습 데이터셋<br/>~400,000 samples]
    G --> H
    H --> I[Contrastive Learning<br/>InfoNCE Loss, τ=0.05]
    I --> J[Fine-tuned Embedding-LLM]
    J --> K[평가: BIOSSES + STS12-16<br/>Spearman Correlation]

Results

MONDO 온톨로지 지식을 주입한 모델(_kinf)이 원본 모델(_orig) 대비 도메인 내(질병 관련) 문장 유사도에서 일관된 성능 향상을 보임
PubMedBERT는 BIOSSES 전체에서 53.74 → 71.23 (+17.49), 질병 문장에서 69.80 → 77.41 (+7.61)로 가장 큰 절대적 향상 달성
SapBERT는 BIOSSES에서 81.86 → 85.45 (+3.59), STS16 질병 문장에서 89.73 → 92.86 (+3.13)로 향상
GIST 모델은 BIOSSES 전체에서 87.96 → 88.86 (+0.90), 질병 문장에서 89.66 → 92.05 (+2.39)로 향상
이미 성능이 높은 모델(GTEbase, GIST)에서는 상대적으로 작지만 일관된 향상을 보였으며, 단순한 모델(PubMedBERT)에서 더 큰 향상폭을 보임
도메인 외(out-of-domain) 성능이 유지되어, 온톨로지 지식 주입이 일반적 표현 능력을 훼손하지 않음을 확인

BIOSSES 벤치마크 결과 (Spearman’s ρ)

Model	All Pairs	Disease Pairs
PubMedBERT_orig	53.74	69.80
PubMedBERT_kinf	71.23	77.41
SapBERT_orig	81.86	83.21
SapBERT_kinf	85.45	84.79
GTEbase_orig	87.26	90.30
GTEbase_kinf	87.40	89.62
GIST_orig	87.96	89.66
GIST_kinf	88.86	92.05

STS 벤치마크 주요 결과 (Spearman’s ρ, Disease Pairs)

Model	STS12	STS13	STS14	STS15	STS16
SapBERT_orig	22.59	36.66	47.64	44.55	89.73
SapBERT_kinf	25.39	39.29	52.07	50.40	92.86
GTEbase_orig	61.07	62.41	67.28	69.33	87.89
GTEbase_kinf	63.85	59.87	67.89	72.89	89.25
GIST_orig	67.87	56.54	73.33	71.92	89.30
GIST_kinf	68.39	59.17	73.72	72.24	91.22

Discussion

주요 발견: 온톨로지의 언어적·구조적 지식을 contrastive learning으로 embedding-LLM에 주입하면, 해당 도메인의 문장 유사도 평가 성능이 향상되면서도 일반적인 성능은 유지됨
모델 복잡도와 향상폭의 관계: 단순한 모델(PubMedBERT)에서 더 큰 절대적 향상을 보이고, 이미 고성능인 모델(GIST, GTEbase)에서는 작지만 일관된 향상을 보여, 온톨로지 지식의 보완적 역할을 시사함
한계 1: 평가가 생의학 도메인(MONDO 온톨로지)에만 국한되어, 다른 도메인 온톨로지로의 일반화 가능성이 검증되지 않음
한계 2: 문장 유사도 과제(STS)에서만 평가하여, entity linking, 분류 등 다른 downstream task에서의 효과는 확인되지 않음
한계 3: 동의어 치환(synonym substitution) 기반 positive pair 생성 방식이 동의어가 부족한 온톨로지에서는 적용이 제한될 수 있음
향후 연구 방향: 더 큰 LLM 아키텍처 및 다양한 도메인에서의 평가, 정의 생성 이외의 대안적 프롬프팅 전략 탐구, 유사도 과제 이외의 downstream task로 평가 확대, 다양한 세분화 수준(granularity)의 온톨로지에서의 실험이 제안됨

Juhyeon's Blog

탐색기

Towards Ontology-Enhanced Representation Learning forLarge Language Models

Introduction

Methods

방법론 다이어그램

Results

BIOSSES 벤치마크 결과 (Spearman’s ρ)

STS 벤치마크 주요 결과 (Spearman’s ρ, Disease Pairs)

Discussion

그래프 뷰

목차

Properties

백링크

Towards Ontology-Enhanced Representation Learning forLarge Language Models

Introduction

Related Papers

Methods

방법론 다이어그램

Results

BIOSSES 벤치마크 결과 (Spearman’s ρ)

STS 벤치마크 주요 결과 (Spearman’s ρ, Disease Pairs)

Discussion

그래프 뷰

목차

Properties

백링크