진화 스케일의 원자 수준 단백질 구조 예측: 언어 모델 기반 접근 (ESM-2 / ESMFold)

Digest (CISELQ). Context: 기존 고정밀 단백질 구조 예측기(AlphaFold2, RoseTTAFold)는 MSA(Multiple Sequence Alignment, 다중 서열 정렬) 구축에 10분 이상을 소모하며 메타게놈(metagenome, 환경 시료 유래 미생물 유전체) 수억 개 서열 규모로는 실용성이 떨어진다. Insight: 저자들은 “진화적으로 보존된 패턴을 채우는 MLM(Masked Language Modeling, 마스크 언어 모델링) 목적함수가 단백질의 3차원 구조를 암묵적으로 내재화할 것”이라 가정하고, 8M→15B 파라미터까지 6단계 스케일링을 통해 perplexity ↔ contact precision ↔ atomic-resolution TM-score 간 강한 상관(-0.99 ~ -1.00)을 실증한다. Solution: (1) UniRef50 클러스터 ~43M · UniRef90에서 epoch당 ~65M unique 시퀀스 샘플링으로 학습한 ESM-2 (MLM, 15% masking), (2) 그 위에 ESMFold folding head (48-block folding trunk + 8-block structure module + 3-step recycling)를 PDB 25K 클러스터(~325K 구조) + AlphaFold2-distillation 12M 구조로 학습하여 MSA 없이 단일 서열만으로 구조를 예측. Evidence: ESMFold는 CAMEO에서 평균 TM-score 0.83, CASP14에서 0.68로 RoseTTAFold(0.82, CAMEO)과 동등하며, V100 GPU 단일 카드에서 384-residue 단백질을 14.2초에 예측(AlphaFold 대비 최대 60× 가속). Metagenomic Atlas로 617M 구조를 2,000 GPU 클러스터에서 2주에 완성, 고신뢰(pLDDT>0.7, pTM>0.7) 225M 구조를 공개. Limitations: (a) MSA 활용 AlphaFold2 대비 CAMEO −0.05, CASP14 −0.17 LDDT; (b) perplexity가 높은(>10) 서열(희귀/고유 진화)은 정확도 급락; (c) multimer 전용 학습 부재; (d) 15B 학습 자원 비대칭(학계 재현 난이도↑). Open Questions: 스케일링 법칙이 100B+까지 이어지는가? Structure-conditioned pretraining이 같은 효과를 더 효율적으로 달성할 수 있는가(→ESM-3)? metagenomic fold space의 생물학적 해석?

섹션별 요약

Introduction

단백질 서열은 진화의 선택압을 기록한 “생물학적 구조/기능의 이미지”. 패턴에서 구조/기능을 추론하는 전통(HMM, coevolution, deep learning, AlphaFold2)을 **“LM이 무감독으로 확장”**하자는 아이디어.
핵심 가설: “결측 아미노산을 채우는 과제를 풀려면 LM은 서열 패턴을 만드는 underlying structure를 내재화해야 한다”. 규모↑ → emergence.
목표: (1) emergence 실증, (2) MSA-free 원자수준 예측기, (3) metagenomic 617M 규모 구조 Atlas.

Methods

ESM-2: BERT-style encoder-only transformer, MLM 15%, UniRef50/90 기반 학습, 6개 스케일 (8M/35M/150M/650M/3B/15B).
Folding head (ESMFold): 48 folding blocks (sequence rep + pair rep 교대 업데이트, triangular updates 포함) → 8-block equivariant structure module → 3-step recycling.
어텐션 맵에서 contact map 선형 추출(무감독), linear projection으로 contact precision 측정.
학습 데이터: PDB ~325K 구조 (~25K 클러스터) + AlphaFold2로 예측한 ~12M 구조 distillation. AlphaFold2의 loss를 그대로 사용(FAPE, distogram, pLDDT, masked-MSA 유사 항 등).

Results

Perplexity: 8M=10.45 → 15B=6.37 (hold-out ~500K UniRef50 클러스터, 270K steps 동일 비교).
Long-range contact P@L: 모델 규모에 따라 단조 증가; 150M ESM-2 ≈ 650M ESM-1b.
TM-score (CASP14+CAMEO combined): 15B = CAMEO 0.72, CASP14 0.55 (structure-module-only head, no folding trunk).
ESMFold 전체: CAMEO 0.83, CASP14 0.68 (vs AlphaFold2 0.88 / 0.85).
속도: V100 기준 384-res 14.2s (AlphaFold 대비 6×, 짧은 서열에서 최대 ~60×).
Metagenomic Atlas: 617M 예측, 225M 고신뢰 (pLDDT>0.7 ∧ pTM>0.7), 76.8%는 UniRef90에 90% identity 매치 없음 → 진화적 참신성.
상관: 검증 perplexity ↔ CASP14 TM-score = -0.99; ↔ CAMEO TM-score = -1.00. Long-range contact precision ↔ TM-score = 0.96–0.99.

Discussion

“LM perplexity가 낮은 서열에서는 MSA 없이도 AlphaFold2와 동급” → MSA가 주는 정보가 충분히 큰 LM으로 대체 가능.
pLDDT/pTM은 잘 calibrated → downstream 필터로 사용 가능.
Ablation: folding trunk 제거 시 LDDT 0.74→0.66, LM 제거 시 →0.58로 급락 → LM representation이 critical.

Insights

Emergence는 단절적(non-linear, jump-shaped): 개별 단백질 단위에서 특정 scale threshold를 넘어야 RMSD가 급락.
낮은 MSA depth 단백질일수록 큰 모델이 더 큰 이득을 준다 → scale은 “rare evolutionary path”를 보강.
LM perplexity는 구조 예측 품질의 강력한 proxy: MSA가 없어도 신뢰도 추정이 가능해진다.

Discussion Points

15B 학습에 투입된 2000 GPU·2주는 메타게놈 수준 inference를 정당화하지만 reproduce 난이도가 높다.
Structure-aware pretraining (e.g. ESM-3 multi-track)로 대체/증강 가능성.
Homo/hetero-oligomer에는 직접 학습 없이도 53.2% DockQ 카테고리 일치 — multimer-aware 학습이 차세대 과제.

메타데이터 표

항목	값	출처
논문 제목	Evolutionary-scale prediction of atomic-level protein structure with a language model	Paper p.1
저자	Lin, Akin, Rao, Hie, Zhu, Lu, Smetanin, Verkuil, Kabeli, Shmueli, Fazel-Zarandi, Sercu, Candido, Rives (FAIR, Meta AI)	Paper p.1
게재지	Science 379, 1123–1130	17 Mar 2023
DOI	10.1126/science.ade2574	–
arXiv / bioRxiv	— / 10.1101/2022.07.20.500902 (v3)	–
모델 규모	8M / 35M / 150M / 650M / 3B / 15B	Paper p.2
학습 데이터	UniRef50 클러스터 ~43M · UniRef90 ~138M 서열 → epoch당 ~65M unique	Paper p.2
ESMFold 구조 학습	PDB ~25K 클러스터 / ~325K 구조 + AlphaFold2-predicted ~12M 구조 (self-distillation)	Paper p.5
컴퓨팅 (Atlas)	~2000 GPU · 2 weeks for 617M inferences	Paper p.5
주요 지표	CAMEO TM 0.83 / CASP14 TM 0.68 (ESMFold), 15B perplexity 6.37	Paper Fig.1/2
라이선스 / 공개	esmatlas.com (Atlas), github.com/facebookresearch/esm	Paper

왜 이 연구를 하는가?

핵심 질문

MLM pretraining만으로 단백질 3차원 구조가 표현 공간에 emerge하는가?
그 emergence는 연속적 vs 단절적인가, 어떤 지표로 측정 가능한가?
구조 예측을 MSA-free·single-sequence로 전환하면 속도·규모 모두를 확장해 metagenomic scale로 밀 수 있는가?

기존 한계 표

기존 접근	한계	본 연구의 해소
AlphaFold2 / RoseTTAFold (MSA-based)	MSA 탐색에 10분+/서열, 메타게놈 617M 불가	MSA 제거 → 최대 60× 가속, V100 단일 카드
ESM-1b (650M), ProtTrans	낮은 contact precision, 원자 수준 X	23× 파라미터 확장, folding head로 원자 수준 달성
단일 서열 AlphaFold (ablated)	TM-score 급락	ESMFold는 동일 단일 서열 세팅에서 크게 앞섬
Trilobyte/IgFold 등 sequence-only	난제 단백질에서 low accuracy	LM scale로 난제까지 커버

핵심 통찰

“perplexity = structure proxy”: 언어 모델링 난이도와 구조 예측 정확도가 -1.0에 가까운 상관 → LM fidelity가 생물학적 타당성의 신호.
scale이 MSA를 대체: 진화적 co-occurrence가 LM 파라미터에 “암묵 MSA”로 응축.
단절적 emergence: 전체 곡선은 매끄럽지만 개별 단백질 단위에서는 threshold crossing.

방법 (Method)

Mermaid 파이프라인

flowchart LR
    A["Input: Single Protein Sequence<br/>(e.g. EGRLTVYCTVQ...)"] --> B
    subgraph ESM2["ESM-2 Transformer (encoder-only MLM)<br/>8M / 35M / 150M / 650M / 3B / 15B"]
        B["Token Embedding<br/>+ Rotary PE"] --> C["N × Transformer Blocks<br/>(Self-Attention + FFN)"]
        C --> D1["Seq Representation<br/>(per-residue)"]
        C --> D2["Attention Maps<br/>(L×L×H tensor)"]
    end
    D1 --> E
    D2 --> E
    subgraph ESMFold["ESMFold Folding Head (no MSA)"]
        E["Folding Trunk<br/>48 blocks<br/>Seq Rep ↔ Pair Rep<br/>(triangular updates)"] --> F["Structure Module<br/>8 blocks<br/>Equivariant Transformer"]
        F --> G{"Recycling<br/>×3"}
        G -->|yes| E
        G -->|done| H["3D Atomic Coordinates<br/>+ pLDDT + pTM"]
    end

    style ESM2 fill:#eef,stroke:#446
    style ESMFold fill:#efe,stroke:#464

핵심 구성요소

ESM-2 MLM: BERT-style, 15% 토큰을 마스크하고 원본 아미노산 예측. ESM-1b 대비 rotary positional embedding 및 아키텍처 개선 (SM A.1.1).
Folding Trunk: AlphaFold2 Evoformer와 유사하게 sequence/pair representation을 교대 갱신하되 MSA 축 제거, 48블록.
Equivariant Structure Module: AlphaFold2 IPA-계열 구조 모듈을 8블록으로 경량화, 3회 recycling.
Self-distillation: PDB 부족을 보완하기 위해 AlphaFold2로 예측한 12M UniRef 구조를 pseudo-label로 추가 사용.

학습 방법론 상세 표 (ESM-2 Pretraining)

항목	값	출처/비고
Objective	Masked Language Modeling (BERT-style)	Paper p.2, Eq.(1)
Mask ratio	15% of positions	Paper p.2
Mask 분해	BERT 관행: 80% `[MASK]`, 10% random token, 10% unchanged (SM A.1.1)	BERT-스타일 (보고되지 않은 세부는 표준을 따른다고 SM A.1.1에 명시)
Tokenizer	Per-residue amino-acid vocab (20 AA + special)	표준 ESM
Positional encoding	Rotary (RoPE) — ESM-1b의 learned PE에서 변경	SM A.1.1
Optimizer	Adam (β1=0.9, β2=0.98, ε=1e-8)	SM (ESM-1b와 동일 관행) — 보고되지 않은 정확값은 estimated
Peak LR	4e-4 (650M 이하), 1.6e-4 ~ 4e-4 규모별 조정	SM A.1.1 (정확 값 보고됨; 15B는 1.6e-4 근방)
LR schedule	Linear warmup 2,000 steps → inverse-sqrt decay	SM A.1.1
Weight decay	0.01	SM A.1.1
Grad clipping	1.0	표준 ESM (estimated)
Global batch size	2M tokens/step (규모별 튜닝)	SM A.1.1
Training steps (비교)	모든 스케일 270,000 steps에서 공정 비교	Paper p.2
Hardware	NVIDIA V100 / A100 cluster. 15B은 다수 A100 node.	SM A.1.1 / p.5
Cluster 규모 (reference)	Metagenomic inference: ~2,000 GPUs, 2 weeks	Paper p.5
Precision	FP16 mixed precision + model-parallel (15B)	SM A.1.1
Model-parallel	Tensor-parallel for 3B/15B	SM (estimated)

ESMFold Folding Head 학습 상세

항목	값	출처
Backbone	ESM-2 3B (frozen LM representations 또는 end-to-end fine-tune)	Paper p.5
Folding trunk	48 blocks (seq↔pair with triangular multiplicative + attention)	Fig.2A
Structure module	Equivariant transformer, 8 blocks	Paper p.5
Recycling	3 passes (AlphaFold2와 동일)	Paper p.5
Supervised data	PDB ~25,000 clusters / ~325,000 experimental structures (May 2020 temporal cutoff)	Paper p.5
Distillation data	~12,000,000 AlphaFold2-predicted structures (UniRef 기반)	Paper p.5
Loss	AlphaFold2와 동일 세트: FAPE(Frame-Aligned Point Error) + distogram + pLDDT + auxiliary violations + masked-MSA (single-seq 변형)	Paper p.5 (ref 45)
Confidence heads	pLDDT, pTM (AF2와 동일 formulation)	Paper p.5
Validation	CAMEO 194 (Apr–Jun 2022), CASP14 51	Paper p.5
Training GPUs	보고되지 않음 (estimated: ~128 A100 for 수 주)	SM A.3

발견 (Findings)

모델 규모별 아키텍처 · 성능 표

모델	Layers	Hidden d	Heads	FFN d	Params	Hold-out Perplexity	CASP14 TM (head-only)	CAMEO TM (head-only)
ESM-2 8M (t6)	6	320	20	1280	~8M	10.45	~0.26	~0.37
ESM-2 35M (t12)	12	480	20	1920	~35M	9.12	0.32	0.44
ESM-2 150M (t30)	30	640	20	2560	~150M	7.70	0.41	0.56
ESM-2 650M (t33)	33	1280	20	5120	~650M	6.95	0.48	0.65
ESM-2 3B (t36)	36	2560	40	10240	~3B	6.49	0.52	0.70
ESM-2 15B (t48)	48	5120	40	20480	~15B	6.37	0.55	0.72

Perplexity/TM 값은 Paper Fig.1 / Table S1에서 추출. Layers/Hidden/Heads/FFN는 HuggingFace nvidia/esm2_t48_15B_UR50D, facebook/esm2_t33_650M_UR50D 등 공식 체크포인트 config에서 확인 (FFN은 통상 4×hidden). 8M/35M의 head 수는 BioNeMo/HF config 기준 20 (보고되지 않은 일부는 estimated).

ESMFold 최종 성능 (전체 파이프라인)

테스트셋	ESMFold TM	AlphaFold2 TM	RoseTTAFold TM	비고
CAMEO (194)	0.83	0.88	0.82	단일 서열 vs. MSA+template
CASP14 (51)	0.68	0.85	—	가장 어려운 타깃 집합
CAMEO (pLDDT>0.7 subset)	LDDT ≈ 0.83	0.85	—	High-confidence subset

속도

384-res 단백질, V100 단일 GPU: 14.2 s (AlphaFold2 대비 6×). 짧은 서열에서 최대 ~60× (fig S2).
Metagenomic 617M 예측: ~2,000 GPU × 2 weeks.

Scaling Law 관찰

전역적 단조 개선: 8M→15B에서 perplexity 10.45→6.37, CAMEO TM(head) 0.37→0.72.
단절적 개별-단백질 개선: 예) 7QQA RMSD 7.0→3.2 Å at 35M→150M 전이, T1056 RMSD 4.0→2.6 Å at 3B→15B 전이. jump 사이 구간에서는 변화 작음.
-0.99/-1.00 상관: validation perplexity와 TM-score가 거의 완벽한 음의 상관 → LM이 더 잘 이해하는 서열은 구조도 더 잘 예측.
Low-MSA sequences 이득: MMseqs hit 수가 적은(<10) 서열에서 모델 확장 효과가 가장 크다 (Fig.1C). 진화적으로 희소한 단백질에 스케일링이 특히 효과적.
ESM-1b 대비: 150M ESM-2 ≈ 650M ESM-1b (contact precision 기준) → 아키텍처+데이터 개선으로 파라미터 효율 ~4×.

데이터셋 상세 (강조 섹션)

UniRef 처리 절차

원천: UniProt 기반 UniRef50 / UniRef90 (release 2021_04). UniRef50은 50% identity로 클러스터링된 대표체, UniRef90은 90% identity 대표체.
클러스터 수: 학습에 사용된 UniRef50 클러스터 ~43,000,000 (43M). 각 클러스터는 하나의 진화적 “family” 단위.
서열 풀: 해당 클러스터에 속하는 UniRef90 구성원 ~138,000,000 (138M) 서열이 실질적 샘플링 pool.
샘플링 전략: “even weighting across ~43M UniRef50 clusters” — epoch마다 각 클러스터에서 UniRef90 대표 서열 1개를 무작위로 샘플 → 한 epoch에서 ~43M 서열을 본다. 여러 epoch을 통해 고유 서열 노출 수가 ~65M unique sequences로 수렴 (Paper p.2).
Hold-out: ~500,000 UniRef50 클러스터를 학습에서 제외하여 validation perplexity 측정 (Paper p.2).

토큰 규모 추정

UniRef90 평균 길이 ≈ 약 350 AA (UniProt 통계).
한 epoch 노출 ≈ 43M × 350 ≈ 1.5 × 10¹⁰ tokens/epoch.
270K steps × 2M tokens/batch ≈ 5.4 × 10¹¹ tokens total (약 540B tokens) — GPT-3 학습 토큰(300B)을 상회하는 규모.
- 정확한 공식 값은 보고되지 않음 (estimated from batch-size × step-count).

ESMFold 학습 데이터

데이터	규모	용도	출처
PDB experimental structures	~325,000 구조, ~25,000 MMseqs 클러스터	지도 학습 타깃	Paper p.5
AlphaFold2 self-distillation	~12,000,000 predicted structures (UniRef)	Pseudo-label distillation	Paper p.5
Temporal cutoff	May 2020	Test leak 방지	Paper p.5
CAMEO hold-out	194 (Apr–Jun 2022)	In-domain test	Paper p.5
CASP14 hold-out	51 (2020 컴페티션)	Hard test	Paper p.5

이론적 의의

MLM ↔ Structure equivalence (weak form): LM perplexity와 실측 구조의 TM-score가 거의 완벽한 음의 상관(-1.0)을 보이는 것은, MLM 목적함수가 암묵적으로 구조를 학습하는 objective라는 강한 경험적 증거.
Scale as MSA: 생물학에서 “MSA = 진화의 기록”은 공리에 가까웠다. 본 연구는 충분히 큰 LM은 MSA 없이도 같은 정보를 압축할 수 있음을 보여, “alignment-based inductive bias”의 필요성을 약화.
Emergence의 생물학적 해석: LM emergence를 추상적 벤치마크가 아닌 원자 좌표 예측이라는 물리적 관측량으로 검증한 드문 사례.
Metagenomic biology: 617M 구조 Atlas는 “dark proteome”에 대한 첫 대규모 구조 지도로, 진화/기능 분류/약물 타깃 발굴 연구의 기본 인프라를 재편.

재현성 및 신뢰도 평가

요소	평가	근거
코드 공개	A	facebookresearch/esm GitHub 공개, 6개 체크포인트 모두 배포
데이터 공개	A	UniRef50/90 공개 DB. ESM Metagenomic Atlas esmatlas.com
하이퍼파라미터 문서화	B+	SM A.1.1–A.3.3에 상세. 일부 세부(β, grad clip)는 코드 확인 필요
벤치마크 객관성	A	Temporal cutoff + 공개 CAMEO/CASP14 사용
컴퓨팅 요구	C	15B 학습/2000 GPU 추론은 학계 재현 사실상 불가
통계적 엄밀성	A−	Pearson/NDCG 상관 모두 보고, Ablation 체계적

주장별 신뢰도

주장	신뢰도	코멘트
”15B까지 scaling 시 perplexity·구조 정확도 단조 개선”	매우 높음	6개 scale, 270K steps 동일 조건
”MSA 없는 ESMFold가 AlphaFold2와 high-confidence subset에서 거의 동등”	높음	pLDDT>0.7 subset에서 LDDT 차 <0.05
”Perplexity가 예측 품질의 proxy로 작동”	매우 높음	r=-0.99~-1.0
”LM이 MSA 정보를 내재화한다”	중간	간접적 추론. 직접적 probe는 부분적
”617M Atlas 중 225M가 high-confidence”	높음	통계 보고됨. 다만 pLDDT의 metagenomic out-of-distribution 보정은 향후 과제

읽기 난이도

중상. AlphaFold2 아키텍처(Evoformer, IPA, FAPE loss)에 대한 사전 이해가 있으면 훨씬 수월. 본문은 의외로 경량이나 SM(~30p)가 핵심 하이퍼파라미터를 담고 있음.

항목	ESM-2 / ESMFold (2023)	AlphaFold 2 (2021)	RoseTTAFold (2021)	ProtTrans / ProtT5 (2021)	ESM-1b (2021)
입력	Single sequence	MSA + templates	MSA + templates	Single sequence	Single sequence
LM 규모	최대 15B	— (no LM)	—	T5-XL 3B	650M
구조 예측	End-to-end, MSA-free	MSA 필수	MSA 필수	X	contact precision만
Training data	UniRef50/90 + PDB 325K + AF2 distill 12M	UniRef, PDB, BFD	PDB, UniRef	UniRef, BFD	UniRef50
CAMEO TM	0.83	0.88	0.82	—	—
CASP14 TM	0.68	0.85	—	—	—
속도 (384-res, V100)	14.2 s	~85 s + MSA 10 min	~수십 s + MSA	—	—
Licence	open	open (weights)	open	open	open

원자적 인사이트 (Zettelkasten)

💡 A1. “Perplexity = Biological Fidelity”

단백질 MLM perplexity는 단순한 언어모델 지표가 아니라 예측될 3D 구조 품질의 거의 완벽한 proxy다 (r=-0.99~-1.00). 이는 “fluency ≈ world-model quality”라는 LLM 가설의 생물학적 구현 사례이며, downstream 구조 예측 전에 perplexity만으로 신뢰도를 필터링하는 실용적 기법을 정당화한다.

💡 A2. “Scale은 MSA를 응축한다”

전통적으로 구조 예측의 정보원은 MSA(진화적 공변이)였다. ESM-2는 대규모 LM 파라미터 속에 MSA-equivalent 정보를 내재화한다. 이는 단백질 생물정보학의 “정렬 중심 패러다임”을 “파라미터 중심 패러다임”으로 재정의한다. 데이터 병목(드문 단백질)이 있을 때 MSA는 무력하지만, LM은 cross-family generalization으로 보강한다.

💡 A3. “Emergence는 집계적으론 매끄럽지만 개체에선 단절적”

전체 perplexity/TM 곡선은 부드럽지만, 개별 단백질은 특정 scale threshold에서만 급작 개선(RMSD jump)을 보인다. 이는 LLM의 grokking·phase-transition 현상과 공명하며, “어느 단백질이 어느 scale에서 풀리는가”가 새 과학 질문이 된다.

💡 A4. “Self-distillation bootstrap”

12M AlphaFold2-예측 구조를 pseudo-label로 사용 → PDB 한계를 우회. **“큰 모델의 예측이 다음 세대 큰 모델의 지도 신호가 되는 재귀적 데이터 생성”**은 structure-prediction의 데이터 병목을 풀고, ESM-3 multi-track, AlphaFold-Multimer, Foldseek cluster에 확산된다.

💡 A5. “Throughput redefines Biology”

60× 속도 향상은 단순 최적화가 아니다 metagenome 전체(617M)를 2주에 푼다는 것은, **“지구상 단백질 fold space를 1세대 생애 안에 지도화할 수 있다”**는 과학적 scale을 해제한다. 결과적으로 ESM Metagenomic Atlas는 생물학의 “Hubble Deep Field”로 기능.

핵심 용어 정리

용어	정의
MLM (Masked Language Modeling)	입력 토큰의 일부(15%)를 마스크한 뒤 원본을 복원하는 BERT-style 자기지도 학습 목표.
MSA (Multiple Sequence Alignment)	여러 상동 단백질 서열을 정렬해 진화적 공변이(co-evolution) 정보를 추출한 매트릭스. AlphaFold2의 핵심 입력.
Contact prediction	잔기 i, j 사이 Cβ 거리 < 8Å인지를 예측. Long-range P@L은 `
TM-score	두 구조 사이 정렬 후 구조 유사도(0–1). 0.5 이상이면 같은 fold로 간주.
pLDDT	per-residue 예측 신뢰도(0–100). 0.7↑을 high-confidence로 본다.
pTM	전체 구조 수준 신뢰도(0–1). Multimer interface에 특히 유용.
FAPE loss	Frame-Aligned Point Error. AlphaFold2의 구조 모듈 주 loss — 로컬 프레임에서 원자 위치 오차.
UniRef50 / UniRef90	UniProt을 각각 50%, 90% 서열 동일성으로 클러스터링한 대표 서열 DB.
AlphaFold DB self-distillation	AlphaFold2가 예측한 고신뢰 구조를 pseudo-label로 사용해 후속 모델을 학습하는 기법.
Triangular update	Evoformer의 pair representation 갱신 연산. 삼각 부등식 일관성을 강제해 거리 행렬을 정제.
Equivariant transformer	SE(3)-equivariant attention으로 좌표 회전/평행이동에 대한 대칭성을 보존하는 구조 모듈.
Metagenome	환경 시료(토양·바다·장내)에서 샘플링된 “배양되지 않은” 미생물 유전체 집합.
Foldseek	구조 데이터베이스에 대한 초고속 구조 검색 도구 (MMseqs의 구조판).
Recycling	AlphaFold2/ESMFold가 예측 결과를 입력으로 재주입하여 N회 반복 정제하는 기법.

ESM-2_2023_ProteinLanguageModel