진화 스케일의 원자 수준 단백질 구조 예측: 언어 모델 기반 접근 (ESM-2 / ESMFold)
Digest (CISELQ).Context: 기존 고정밀 단백질 구조 예측기(AlphaFold2, RoseTTAFold)는 MSA(Multiple Sequence Alignment, 다중 서열 정렬) 구축에 10분 이상을 소모하며 메타게놈(metagenome, 환경 시료 유래 미생물 유전체) 수억 개 서열 규모로는 실용성이 떨어진다. Insight: 저자들은 “진화적으로 보존된 패턴을 채우는 MLM(Masked Language Modeling, 마스크 언어 모델링) 목적함수가 단백질의 3차원 구조를 암묵적으로 내재화할 것”이라 가정하고, 8M→15B 파라미터까지 6단계 스케일링을 통해 perplexity ↔ contact precision ↔ atomic-resolution TM-score 간 강한 상관(-0.99 ~ -1.00)을 실증한다. Solution: (1) UniRef50 클러스터 ~43M · UniRef90에서 epoch당 ~65M unique 시퀀스 샘플링으로 학습한 ESM-2 (MLM, 15% masking), (2) 그 위에 ESMFold folding head (48-block folding trunk + 8-block structure module + 3-step recycling)를 PDB 25K 클러스터(~325K 구조) + AlphaFold2-distillation 12M 구조로 학습하여 MSA 없이 단일 서열만으로 구조를 예측. Evidence: ESMFold는 CAMEO에서 평균 TM-score 0.83, CASP14에서 0.68로 RoseTTAFold(0.82, CAMEO)과 동등하며, V100 GPU 단일 카드에서 384-residue 단백질을 14.2초에 예측(AlphaFold 대비 최대 60× 가속). Metagenomic Atlas로 617M 구조를 2,000 GPU 클러스터에서 2주에 완성, 고신뢰(pLDDT>0.7, pTM>0.7) 225M 구조를 공개. Limitations: (a) MSA 활용 AlphaFold2 대비 CAMEO −0.05, CASP14 −0.17 LDDT; (b) perplexity가 높은(>10) 서열(희귀/고유 진화)은 정확도 급락; (c) multimer 전용 학습 부재; (d) 15B 학습 자원 비대칭(학계 재현 난이도↑). Open Questions: 스케일링 법칙이 100B+까지 이어지는가? Structure-conditioned pretraining이 같은 효과를 더 효율적으로 달성할 수 있는가(→ESM-3)? metagenomic fold space의 생물학적 해석?
섹션별 요약
Introduction
단백질 서열은 진화의 선택압을 기록한 “생물학적 구조/기능의 이미지”. 패턴에서 구조/기능을 추론하는 전통(HMM, coevolution, deep learning, AlphaFold2)을 **“LM이 무감독으로 확장”**하자는 아이디어.
핵심 가설: “결측 아미노산을 채우는 과제를 풀려면 LM은 서열 패턴을 만드는 underlying structure를 내재화해야 한다”. 규모↑ → emergence.
목표: (1) emergence 실증, (2) MSA-free 원자수준 예측기, (3) metagenomic 617M 규모 구조 Atlas.
Methods
ESM-2: BERT-style encoder-only transformer, MLM 15%, UniRef50/90 기반 학습, 6개 스케일 (8M/35M/150M/650M/3B/15B).
AlphaFold2와 동일 세트: FAPE(Frame-Aligned Point Error) + distogram + pLDDT + auxiliary violations + masked-MSA (single-seq 변형)
Paper p.5 (ref 45)
Confidence heads
pLDDT, pTM (AF2와 동일 formulation)
Paper p.5
Validation
CAMEO 194 (Apr–Jun 2022), CASP14 51
Paper p.5
Training GPUs
보고되지 않음 (estimated: ~128 A100 for 수 주)
SM A.3
발견 (Findings)
모델 규모별 아키텍처 · 성능 표
모델
Layers
Hidden d
Heads
FFN d
Params
Hold-out Perplexity
CASP14 TM (head-only)
CAMEO TM (head-only)
ESM-2 8M (t6)
6
320
20
1280
~8M
10.45
~0.26
~0.37
ESM-2 35M (t12)
12
480
20
1920
~35M
9.12
0.32
0.44
ESM-2 150M (t30)
30
640
20
2560
~150M
7.70
0.41
0.56
ESM-2 650M (t33)
33
1280
20
5120
~650M
6.95
0.48
0.65
ESM-2 3B (t36)
36
2560
40
10240
~3B
6.49
0.52
0.70
ESM-2 15B (t48)
48
5120
40
20480
~15B
6.37
0.55
0.72
Perplexity/TM 값은 Paper Fig.1 / Table S1에서 추출. Layers/Hidden/Heads/FFN는 HuggingFace nvidia/esm2_t48_15B_UR50D, facebook/esm2_t33_650M_UR50D 등 공식 체크포인트 config에서 확인 (FFN은 통상 4×hidden). 8M/35M의 head 수는 BioNeMo/HF config 기준 20 (보고되지 않은 일부는 estimated).
ESMFold 최종 성능 (전체 파이프라인)
테스트셋
ESMFold TM
AlphaFold2 TM
RoseTTAFold TM
비고
CAMEO (194)
0.83
0.88
0.82
단일 서열 vs. MSA+template
CASP14 (51)
0.68
0.85
—
가장 어려운 타깃 집합
CAMEO (pLDDT>0.7 subset)
LDDT ≈ 0.83
0.85
—
High-confidence subset
속도
384-res 단백질, V100 단일 GPU: 14.2 s (AlphaFold2 대비 6×). 짧은 서열에서 최대 ~60× (fig S2).
클러스터 수: 학습에 사용된 UniRef50 클러스터 ~43,000,000 (43M). 각 클러스터는 하나의 진화적 “family” 단위.
서열 풀: 해당 클러스터에 속하는 UniRef90 구성원 ~138,000,000 (138M) 서열이 실질적 샘플링 pool.
샘플링 전략: “even weighting across ~43M UniRef50 clusters” — epoch마다 각 클러스터에서 UniRef90 대표 서열 1개를 무작위로 샘플 → 한 epoch에서 ~43M 서열을 본다. 여러 epoch을 통해 고유 서열 노출 수가 ~65M unique sequences로 수렴 (Paper p.2).
단백질 MLM perplexity는 단순한 언어모델 지표가 아니라 예측될 3D 구조 품질의 거의 완벽한 proxy다 (r=-0.99~-1.00). 이는 “fluency ≈ world-model quality”라는 LLM 가설의 생물학적 구현 사례이며, downstream 구조 예측 전에 perplexity만으로 신뢰도를 필터링하는 실용적 기법을 정당화한다.
💡 A2. “Scale은 MSA를 응축한다”
전통적으로 구조 예측의 정보원은 MSA(진화적 공변이)였다. ESM-2는 대규모 LM 파라미터 속에 MSA-equivalent 정보를 내재화한다. 이는 단백질 생물정보학의 “정렬 중심 패러다임”을 “파라미터 중심 패러다임”으로 재정의한다. 데이터 병목(드문 단백질)이 있을 때 MSA는 무력하지만, LM은 cross-family generalization으로 보강한다.
💡 A3. “Emergence는 집계적으론 매끄럽지만 개체에선 단절적”
전체 perplexity/TM 곡선은 부드럽지만, 개별 단백질은 특정 scale threshold에서만 급작 개선(RMSD jump)을 보인다. 이는 LLM의 grokking·phase-transition 현상과 공명하며, “어느 단백질이 어느 scale에서 풀리는가”가 새 과학 질문이 된다.
💡 A4. “Self-distillation bootstrap”
12M AlphaFold2-예측 구조를 pseudo-label로 사용 → PDB 한계를 우회. **“큰 모델의 예측이 다음 세대 큰 모델의 지도 신호가 되는 재귀적 데이터 생성”**은 structure-prediction의 데이터 병목을 풀고, ESM-3 multi-track, AlphaFold-Multimer, Foldseek cluster에 확산된다.
💡 A5. “Throughput redefines Biology”
60× 속도 향상은 단순 최적화가 아니다 metagenome 전체(617M)를 2주에 푼다는 것은, **“지구상 단백질 fold space를 1세대 생애 안에 지도화할 수 있다”**는 과학적 scale을 해제한다. 결과적으로 ESM Metagenomic Atlas는 생물학의 “Hubble Deep Field”로 기능.
핵심 용어 정리
용어
정의
MLM (Masked Language Modeling)
입력 토큰의 일부(15%)를 마스크한 뒤 원본을 복원하는 BERT-style 자기지도 학습 목표.
MSA (Multiple Sequence Alignment)
여러 상동 단백질 서열을 정렬해 진화적 공변이(co-evolution) 정보를 추출한 매트릭스. AlphaFold2의 핵심 입력.
Contact prediction
잔기 i, j 사이 Cβ 거리 < 8Å인지를 예측. Long-range P@L은 `
TM-score
두 구조 사이 정렬 후 구조 유사도(0–1). 0.5 이상이면 같은 fold로 간주.
pLDDT
per-residue 예측 신뢰도(0–100). 0.7↑을 high-confidence로 본다.
pTM
전체 구조 수준 신뢰도(0–1). Multimer interface에 특히 유용.
FAPE loss
Frame-Aligned Point Error. AlphaFold2의 구조 모듈 주 loss — 로컬 프레임에서 원자 위치 오차.
UniRef50 / UniRef90
UniProt을 각각 50%, 90% 서열 동일성으로 클러스터링한 대표 서열 DB.
AlphaFold DB self-distillation
AlphaFold2가 예측한 고신뢰 구조를 pseudo-label로 사용해 후속 모델을 학습하는 기법.