언어 모델로 5억 년의 진화를 시뮬레이션하다 (Simulating 500 Million Years of Evolution with a Language Model)

Digest (CISELQ)
Context — 단백질의 sequence(1차 서열), structure(3차 구조), function(기능 주석)은 진화 과정에서 상호 결합된 세 가지 modality(양상)로 존재하지만, 기존 protein language model(단백질 언어모델)은 주로 서열만 학습하거나(ESM-2), 구조를 예측만 하는 데(AlphaFold 2) 국한되었다. Issue — 구조와 기능을 동시에 조건으로 받거나 생성하는 통합 모델이 없어, “원하는 기능을 가진 새로운 단백질을 de novo 설계”하는 프로그래머블 프로테인 엔지니어링이 어려웠다. Solution — ESM-3는 sequence 토큰 + structure 토큰(VQ-VAE, codebook size 4096) + function 토큰(InterPro / GO / keyword)을 discrete track(이산 트랙)으로 통합하고, 각 트랙에 대해 variable-ratio masked language modeling(가변 비율 마스킹 학습)을 수행하는 bidirectional transformer(양방향 트랜스포머)이다. 1.4B / 7B / 98B 세 스케일로 학습되었고, 98B 모델은 1.07 × 10²⁴ FLOPs를 소비했다. Evidence — 2.78B clustered proteins, 236M experimental + 772M ESMAtlas predicted structures, 771B unique tokens로 학습하여 sequence perplexity·structure recovery·function classification 모든 지표에서 parameter / compute에 따른 clean scaling law를 보였다. Limitations — Context window가 2048 residues로 제한되고, structure VQ-VAE codebook 중 최대 ~70%가 inference 시 inactive(codebook collapse)이며, 98B weight는 미공개(ESM3-open 1.4B만 릴리즈). Question — esmGFP(case study)는 자연계 GFP와 58% sequence identity만 유지하면서 유사한 brightness(형광 강도)를 회복했고, 이는 자연 진화 속도 기준 5억 년 이상의 진화 거리에 해당한다. 이로써 “generative LM이 자연 선택이 탐색할 수 없는 기능-보존 희소 영역을 이동할 수 있는가”에 대한 강한 긍정적 증거가 제시된다.

섹션별 요약

Introduction

단백질은 sequence→structure→function의 계층을 가지며, 진화는 이 세 수준을 동시에 최적화해 왔다.
ESM-2(Lin et al., 2023)는 서열만으로 structure emergence를 보였고, AlphaFold 2/3는 structure prediction에 집중. 그러나 “structure·function을 조건으로 받아 sequence를 설계”하거나 역방향 조건을 모두 수행하는 unified generative foundation model은 부재.
ESM-3의 제안: 세 modality를 discrete token stream으로 통합하고 masked generative modeling으로 학습 → any-to-any conditioning / decoding 가능.

Methods (요약)

Multimodal tokenization: sequence(amino acid) / structure(geometric VQ-VAE) / function(InterPro·GO·keyword) / SS8(secondary structure 8-class) / SASA(solvent accessible surface area) / residue annotation의 6개 discrete track.
Training objective: 각 track에 대해 BERT-style masked prediction + variable mask ratio (noise schedule sampled from wide distribution, 0~100%) → iterative decoding at inference.
Architecture: bidirectional transformer trunk, Pre-LN, RoPE, SwiGLU, 첫 블록에 SE(3)-invariant geometric attention layer (backbone atomic coords 조건).
Scale: 1.4B / 7B / 98B params, 최대 771B unique tokens, 1.07 × 10²⁴ FLOPs (98B).

Results (요약)

Scaling: validation loss & downstream evals(structure recovery, function classification)가 parameter/compute에 대해 smooth power law.
esmGFP case study: chain-of-thought prompting(SS8 + structure + function prompt)로 GFP-like 단백질을 새로 생성; 자연계 대비 58% identity, 96 mutations / 229 aa, brightness는 natural GFP와 동등.
Evolutionary distance: natural GFP 계통 diversification rate에 맞추면 약 5억 년 진화에 해당.
Alignment: preference optimization(유사 RLHF)으로 구조·기능 충실도 향상.

Discussion

Generative protein LM이 단백질 설계 공간의 “자연이 탐색 못 한 영역”으로 이동할 수 있음을 시사.
Safety / dual-use 우려 → ESM3-open은 1.4B로 한정 공개.

Insights

Sequence·structure·function 통합 representation이 각각 단일 modality 학습보다 scaling 효율 우수.
Discrete structure tokenization이 diffusion 기반 설계(RFDiffusion)보다 “언어모델 인프라 재사용”에 유리.

Discussion Points (토론)

Codebook collapse(~70% inactive) → structure token 표현력의 병목?
Context window 2048 → multimeric / long protein 한계.
ESM3-open(1.4B)만 공개 → 98B 재현성 B급.

메타데이터 표

항목	값
제목	Simulating 500 Million Years of Evolution with a Language Model
저자	Hayes et al. (EvolutionaryScale)
발표	bioRxiv 2024.07, v2; Science 2025
DOI	10.1101/2024.07.01.600583
모델 사이즈	1.4B / 7B / 98B
학습 토큰	771B unique tokens (Section 2 / blog)
학습 FLOPs (98B)	1.07 × 10²⁴
Context window	2048 residues
공개 가중치	ESM3-open 1.4B only

왜 이 연구를 하는가? (Motivation)

단백질 진화는 multimodal 최적화: 자연 선택은 sequence만 보지 않고 folded structure와 functional fitness를 동시에 평가한다. 서열만 학습하는 ESM-2 계열은 이 결합 분포를 부분적으로만 포착.
De novo design 병목: RFDiffusion 등 structure-first 생성 모델은 sequence-level fitness / functional annotation을 조건으로 걸기 어렵고, inverse folding(ProteinMPNN)은 구조 → 서열 단일 방향.
Programmable biology: “특정 active site 잔기 + 특정 fold + 특정 InterPro family”를 조건으로 받아 단백질을 생성하는 통합 인터페이스가 필요.
Scaling hypothesis in biology: LLM에서 관찰된 scaling law가 multimodal protein 도메인에서도 성립하는지 체계적으로 검증할 필요.

방법 (Method)

Architecture 개요 (Mermaid)

flowchart TB
    subgraph Inputs["입력 트랙 (Discrete Token Tracks)"]
        S[Sequence tokens<br/>20 AA + special]
        ST[Structure tokens<br/>VQ-VAE, codebook=4096]
        SS[SS8 tokens]
        SA[SASA tokens]
        F[Function tokens<br/>InterPro / GO / keyword]
        RA[Residue annotation]
    end

    subgraph Tok["Tokenization Layer"]
        ES[Seq Embed]
        EST[Struct Embed]
        ESS[SS8 Embed]
        ESA[SASA Embed]
        EF[Func Embed]
        ERA[Annot Embed]
    end

    Inputs --> Tok
    Tok --> SUM((⊕ Sum))
    SUM --> GEO[SE(3)-Invariant<br/>Geometric Attention]
    GEO --> TRUNK[Bidirectional Transformer Trunk<br/>Pre-LN · RoPE · SwiGLU<br/>1.4B / 7B / 98B]
    TRUNK --> DEC{Multi-head Output}
    DEC --> OS[Seq logits]
    DEC --> OST[Struct logits]
    DEC --> OF[Function logits]
    DEC --> OOther[SS8/SASA/Annot logits]

    OS -.iterative decoding.-> S
    OST -.iterative decoding.-> ST
    OF -.iterative decoding.-> F

Tokenization 상세

Sequence track: 20 standard amino acids + BOS/EOS/MASK/PAD.
Structure track (핵심):
- Geometric VQ-VAE encoder가 각 residue의 local neighborhood(16 nearest neighbors) 백본 기하 정보를 받아 latent vector 생성.
- Vector quantization: codebook size = 4096 (Supp Table; 검증은 Dissecting ESM3 blog 및 Section 2).
- All-atom decoder (~700M params)가 structure token → atomic coordinates 복원.
Function track:
- InterPro family IDs + GO terms + keyword 집합을 이산 vocabulary로 인코딩.
- 각 residue 단위로 정렬하여 residue-level 조건부 생성 가능.
SS8 / SASA: DSSP 기반 8-class secondary structure, SASA는 discretized bin.

Variable-ratio Masked Generative Objective

각 mini-batch마다 noise level $t \sim U (0, 1)$ (또는 wide distribution)를 샘플.
각 track 독립적으로 mask ratio $r_{m} (t)$ 적용 → 0% (full context)부터 100% (unconditional generation)까지 모두 학습.
Loss: cross-entropy on masked positions, 각 track 별로 weight 조정.
Inference: iterative decoding — 가장 confident 한 position부터 점진적 unmask (MaskGIT 스타일).

학습 Hyperparameter 표 (reported + estimated)

항목	값	Source
Optimizer	AdamW	Supp (typical, 명시)
β1, β2	0.9, 0.95	Supp (estimated, 일반적)
Weight decay	0.1	보고되지 않음 (estimated)
Peak LR (98B)	1e-4	보고되지 않음 (estimated)
LR schedule	cosine with warmup	Supp
Batch size (tokens)	수 M tokens	보고되지 않음 (estimated)
Context length	2048 residues	Section 2
Total unique tokens	771B	Abstract / Section 2
Training FLOPs (98B)	1.07 × 10²⁴	Section 2 / blog
Precision	bf16 mixed	Supp (estimated)
Hardware	NVIDIA H100 cluster	Blog
GPU count	수천 H100 (estimated)	보고되지 않음 (estimated)
Masking noise schedule	variable, sampled	Section 2
Positional encoding	RoPE	Architecture summary
Norm	Pre-LN (RMSNorm variant)	Architecture summary
Activation	SwiGLU	Architecture summary
Geometric attention	1st block only, SE(3)-invariant	Methods

Alignment 단계

Preference optimization(RLHF-유사) 로 생성 품질(구조 충실도·function 보존) 개선; 세부 hyperparameter는 Supp.

발견 (Findings)

esmGFP Case Study (핵심)

목표: GFP의 chromophore-forming 잔기(T65, Y66, G67에 해당하는 canonical triad)와 β-barrel fold를 조건으로 받아, 자연계 GFP와 최대한 다른 서열을 생성.
프롬프트 구성: function(GFP family InterPro), 핵심 잔기의 sequence + structure token, 나머지는 mask.
생성 절차: 98B ESM3로 iterative decoding → 후보 단백질 발현 실험 → 96-well plate 스크리닝 → 최종 esmGFP (well C10) 선정.

지표	값	의미
서열 길이	229 aa	자연 GFP와 동급
가장 가까운 자연 GFP와 identity	약 42% (96 mutations, 즉 58% similar)	매우 먼 homolog
Brightness	natural GFP와 비슷	기능 유지
초기 후보 B8 brightness	natural 대비 ~1/50	iterative refinement 전
Evolutionary distance (추정)	> 5억 년	natural GFP 계통의 diversification rate 기반

Scaling Results

Axis	관찰
Sequence perplexity	params↑ → perplexity↓ (power law)
Structure token recovery	params↑ → recovery↑, 98B에서 plateau 없음
Function classification F1	params↑ → F1↑
Generative fidelity (scTM)	params↑ → self-consistent TM score↑

생성 다양성

98B는 동일 prompt에서 sequence diversity 유지하면서 structural fidelity 보존 → “자연이 탐색 못 한 영역” 커버 주장을 뒷받침.

데이터셋 상세 (별도 섹션 강조!)

출처	타입	규모	비고
UniRef	Sequence	~수억 clustered sequences	UniRef50 기반 cluster
MGnify	Sequence (metagenomic)	수십억	environmental diversity 확장
JGI (IMG)	Sequence (metagenomic)	추가 수억	microbial dark matter
OAS (Observed Antibody Space)	Sequence (antibody)	~수십억	immune repertoire
PDB	Experimental structure	~214K chains	고신뢰 실험 구조
AlphaFold DB (AFDB)	Predicted structure	~214M	AF2 예측
ESMAtlas	Predicted structure	~772M	ESM-2 기반 metagenomic 예측
InterPro	Function annotation	~40K families	function token vocab
GO	Function ontology	~45K terms	keyword token
총 단백질 (clustered)	—	2.78B	Abstract
총 unique 학습 토큰	—	771B	Abstract

Curation

Cluster-level sampling으로 redundancy 축소 (UniRef50 수준).
Structure data는 AFDB pLDDT 필터링 + ESMAtlas pLDDT filtering.
Function annotation은 InterPro 정렬 기반 residue-level aligning.
Low-quality / contaminated sequences(짧은 N-term·반복서열)는 제거.

모델 파라미터 상세 (별도 섹션 강조!)

주의: 본 논문 v2 main text는 총 파라미터 수만 명시하고 layer/hidden/head 세부 값은 Supplementary Table S1에 제시. 공개 릴리즈(ESM3-open 1.4B) 기준으로 교차검증 가능한 값과, 보고되지 않아 scaling law convention(Chinchilla-like aspect ratio)으로 추정한 값을 구분한다.

모델	Params	Layers	Hidden dim $d$	Heads	FFN dim	Context	Notes
ESM3-small	1.4B (Supp T S1)	~48	~1536	~24	~4× (SwiGLU so 8/3×)	2048	공개 weight
ESM3-medium	7B (Supp T S1)	~36	~4096	~32	~8/3×	2048	내부
ESM3-large	98B (Supp T S1)	~216 (estimated)	~6144 (estimated)	~48 (estimated)	~8/3× SwiGLU	2048	비공개

위 표의 1.4B/7B 이외의 값은 보고되지 않음 (estimated) — public Supp가 부분적으로만 접근 가능했고, 정확한 값은 Supp Table S1 참조 필요.

Compute / Scaling

모델	Training FLOPs	Tokens	비고
1.4B	수 × 10²² (estimated)	subset	open release
7B	10²³ (estimated)	subset	—
98B	1.07 × 10²⁴ (Section 2)	771B	frontier

Scaling 결과: 1.4B → 7B → 98B 로 갈수록 validation cross-entropy와 downstream metric 모두 Chinchilla 유사 power law 추종.
Compute-optimal regime: paper는 “training loss / compute 관점에서 98B는 추가 token으로 더 향상 가능(under-trained 가능성)“을 시사 (Section 2 toward end).

이론적 의의

Multimodal scaling law 검증: 단일 modality LM(ESM-2)의 scaling이 sequence+structure+function 조인트 분포에도 성립함을 대규모로 입증.
Discrete structure tokenization의 실용성: diffusion 기반(RFDiffusion) 없이도 transformer 인프라만으로 구조 생성 가능성 제시 → LLM ↔ 구조생성 통합.
“In silico evolution”: natural fitness landscape 밖의 기능 보존 변이를 생성할 수 있어, 진화 시뮬레이션 도구로서의 LM 역할 제안.
Programmable biology 인터페이스: InterPro/GO/잔기/구조를 자연어처럼 prompt로 사용 — “protein prompt engineering” 패러다임.

재현성 및 신뢰도 평가

축	평가	근거
Code 공개	A-	`github.com/evolutionaryscale/esm` 공개
Weights 공개	C+	1.4B(ESM3-open)만, 98B 비공개
Data pipeline	B	UniRef/MGnify/JGI 등 출처는 공개지만 clustering/curation script 일부 미공개
Hyperparameter 명시	B	Supp Table S1 의존
Eval reproducibility	B+	esmGFP wet-lab은 외부 재현 어려움
Overall	B	main 결과 아이디어는 재현 가능, 98B 수준 재학습은 불가

축	ESM-2	AlphaFold 2	AlphaFold 3	ProGen2	RFDiffusion	ESM-3
Input modality	Seq only	MSA+template	Seq+complex	Seq only	Structure	Seq+Struct+Func
Output	Seq MLM / repr	3D structure	3D complex	Seq AR	Structure (backbone)	All modalities
Generative	✗	✗	✗	✓ (causal)	✓ (diffusion)	✓ (masked, any-to-any)
Max params	15B	~100M	~400M	6.4B	~60M	98B
Structure rep	implicit	continuous coords	continuous	—	continuous	discrete VQ tokens
Function cond	✗	✗	제한적	✗	✗	InterPro/GO/keyword tokens
Iterative decoding	✗	recycling	recycling	✗	diffusion steps	MaskGIT-style
Open weights	✓ (all)	✓	partial	✓	✓	1.4B only

원자적 인사이트 (Atomic Insights)

“3-modality를 discrete token으로 통일하면 transformer 인프라를 그대로 재사용할 수 있다” — diffusion 없이 LLM 파이프라인만으로 구조 생성을 할 수 있다는 실용적 메시지.
“Variable mask ratio가 zero-shot any-to-any conditioning을 만든다” — BERT-style 고정 15% 마스킹이 아니라, 0~100% 범위 noise schedule이 inference 유연성의 핵심.
“Function 보존 희소 영역으로의 이동은 LM prompt로 달성 가능하다” — esmGFP는 generative LM이 자연 선택의 탐색 trajectory 밖에서도 기능을 보존할 수 있음을 보여주는 최초의 대규모 wet-lab 증거.
“Geometric attention을 첫 블록에만 두면 충분” — SE(3) invariance는 입력 단계에서만 inductive bias로 주고, 이후는 일반 transformer로도 구조 신호가 보존됨.
“Protein scaling law가 1.07 × 10²⁴ FLOPs까지 깨지지 않는다” — biology 도메인에서 LLM급 scaling이 경험적으로 성립한다는 강력한 신호.

핵심 용어 정리

용어	정의
Multimodal masked LM	여러 modality 각각에 마스킹을 적용해 동시 예측하는 masked language model
Structure tokenization	3D coord를 local geometry encoder + VQ로 discrete token화 (codebook=4096)
Geometric attention	SE(3)-invariant attention; backbone coord 조건
Variable mask ratio	0~100% 범위에서 샘플링된 noise schedule
Iterative decoding	confidence-ordered unmasking (MaskGIT)
InterPro	단백질 family/domain annotation DB
GFP	Green Fluorescent Protein (β-barrel, T-Y-G chromophore)
Brightness	양자수율 × 소광계수, 형광 단백질 성능 지표
Sequence identity	두 단백질 정렬 후 동일 잔기 비율
Evolutionary distance	진화적 시간으로 환산한 서열/구조 차이
scTM score	self-consistent TM-score, 생성 단백질의 구조 신뢰도
Codebook collapse	VQ-VAE 코드 일부만 사용되는 현상
pLDDT	AlphaFold 구조 신뢰도 (per-residue)
ESMAtlas	ESM-2 기반 metagenomic 구조 예측 DB (~772M)

Juhyeon's Blog

탐색기

ESM-3_2024_MultimodalProteinLM