언어 모델로 5억 년의 진화를 시뮬레이션하다 (Simulating 500 Million Years of Evolution with a Language Model)
Digest (CISELQ) Context — 단백질의 sequence(1차 서열), structure(3차 구조), function(기능 주석)은 진화 과정에서 상호 결합된 세 가지 modality(양상)로 존재하지만, 기존 protein language model(단백질 언어모델)은 주로 서열만 학습하거나(ESM-2), 구조를 예측만 하는 데(AlphaFold 2) 국한되었다. Issue — 구조와 기능을 동시에 조건으로 받거나 생성하는 통합 모델이 없어, “원하는 기능을 가진 새로운 단백질을 de novo 설계”하는 프로그래머블 프로테인 엔지니어링이 어려웠다. Solution — ESM-3는 sequence 토큰 + structure 토큰(VQ-VAE, codebook size 4096) + function 토큰(InterPro / GO / keyword)을 discrete track(이산 트랙)으로 통합하고, 각 트랙에 대해 variable-ratio masked language modeling(가변 비율 마스킹 학습)을 수행하는 bidirectional transformer(양방향 트랜스포머)이다. 1.4B / 7B / 98B 세 스케일로 학습되었고, 98B 모델은 1.07 × 10²⁴ FLOPs를 소비했다. Evidence — 2.78B clustered proteins, 236M experimental + 772M ESMAtlas predicted structures, 771B unique tokens로 학습하여 sequence perplexity·structure recovery·function classification 모든 지표에서 parameter / compute에 따른 clean scaling law를 보였다. Limitations — Context window가 2048 residues로 제한되고, structure VQ-VAE codebook 중 최대 ~70%가 inference 시 inactive(codebook collapse)이며, 98B weight는 미공개(ESM3-open 1.4B만 릴리즈). Question — esmGFP(case study)는 자연계 GFP와 58% sequence identity만 유지하면서 유사한 brightness(형광 강도)를 회복했고, 이는 자연 진화 속도 기준 5억 년 이상의 진화 거리에 해당한다. 이로써 “generative LM이 자연 선택이 탐색할 수 없는 기능-보존 희소 영역을 이동할 수 있는가”에 대한 강한 긍정적 증거가 제시된다.
섹션별 요약
Introduction
단백질은 sequence→structure→function의 계층을 가지며, 진화는 이 세 수준을 동시에 최적화해 왔다.
ESM-2(Lin et al., 2023)는 서열만으로 structure emergence를 보였고, AlphaFold 2/3는 structure prediction에 집중. 그러나 “structure·function을 조건으로 받아 sequence를 설계”하거나 역방향 조건을 모두 수행하는 unified generative foundation model은 부재.
ESM-3의 제안: 세 modality를 discrete token stream으로 통합하고 masked generative modeling으로 학습 → any-to-any conditioning / decoding 가능.
Training objective: 각 track에 대해 BERT-style masked prediction + variable mask ratio (noise schedule sampled from wide distribution, 0~100%) → iterative decoding at inference.
Context window 2048 → multimeric / long protein 한계.
ESM3-open(1.4B)만 공개 → 98B 재현성 B급.
메타데이터 표
항목
값
제목
Simulating 500 Million Years of Evolution with a Language Model
저자
Hayes et al. (EvolutionaryScale)
발표
bioRxiv 2024.07, v2; Science 2025
DOI
10.1101/2024.07.01.600583
모델 사이즈
1.4B / 7B / 98B
학습 토큰
771B unique tokens (Section 2 / blog)
학습 FLOPs (98B)
1.07 × 10²⁴
Context window
2048 residues
공개 가중치
ESM3-open 1.4B only
왜 이 연구를 하는가? (Motivation)
단백질 진화는 multimodal 최적화: 자연 선택은 sequence만 보지 않고 folded structure와 functional fitness를 동시에 평가한다. 서열만 학습하는 ESM-2 계열은 이 결합 분포를 부분적으로만 포착.
De novo design 병목: RFDiffusion 등 structure-first 생성 모델은 sequence-level fitness / functional annotation을 조건으로 걸기 어렵고, inverse folding(ProteinMPNN)은 구조 → 서열 단일 방향.
Programmable biology: “특정 active site 잔기 + 특정 fold + 특정 InterPro family”를 조건으로 받아 단백질을 생성하는 통합 인터페이스가 필요.
Scaling hypothesis in biology: LLM에서 관찰된 scaling law가 multimodal protein 도메인에서도 성립하는지 체계적으로 검증할 필요.
방법 (Method)
Architecture 개요 (Mermaid)
flowchart TB
subgraph Inputs["입력 트랙 (Discrete Token Tracks)"]
S[Sequence tokens<br/>20 AA + special]
ST[Structure tokens<br/>VQ-VAE, codebook=4096]
SS[SS8 tokens]
SA[SASA tokens]
F[Function tokens<br/>InterPro / GO / keyword]
RA[Residue annotation]
end
subgraph Tok["Tokenization Layer"]
ES[Seq Embed]
EST[Struct Embed]
ESS[SS8 Embed]
ESA[SASA Embed]
EF[Func Embed]
ERA[Annot Embed]
end
Inputs --> Tok
Tok --> SUM((⊕ Sum))
SUM --> GEO[SE(3)-Invariant<br/>Geometric Attention]
GEO --> TRUNK[Bidirectional Transformer Trunk<br/>Pre-LN · RoPE · SwiGLU<br/>1.4B / 7B / 98B]
TRUNK --> DEC{Multi-head Output}
DEC --> OS[Seq logits]
DEC --> OST[Struct logits]
DEC --> OF[Function logits]
DEC --> OOther[SS8/SASA/Annot logits]
OS -.iterative decoding.-> S
OST -.iterative decoding.-> ST
OF -.iterative decoding.-> F
Tokenization 상세
Sequence track: 20 standard amino acids + BOS/EOS/MASK/PAD.
Structure track (핵심):
Geometric VQ-VAE encoder가 각 residue의 local neighborhood(16 nearest neighbors) 백본 기하 정보를 받아 latent vector 생성.
Vector quantization: codebook size = 4096 (Supp Table; 검증은 Dissecting ESM3 blog 및 Section 2).
주의: 본 논문 v2 main text는 총 파라미터 수만 명시하고 layer/hidden/head 세부 값은 Supplementary Table S1에 제시. 공개 릴리즈(ESM3-open 1.4B) 기준으로 교차검증 가능한 값과, 보고되지 않아 scaling law convention(Chinchilla-like aspect ratio)으로 추정한 값을 구분한다.
모델
Params
Layers
Hidden dim d
Heads
FFN dim
Context
Notes
ESM3-small
1.4B (Supp T S1)
~48
~1536
~24
~4× (SwiGLU so 8/3×)
2048
공개 weight
ESM3-medium
7B (Supp T S1)
~36
~4096
~32
~8/3×
2048
내부
ESM3-large
98B (Supp T S1)
~216 (estimated)
~6144 (estimated)
~48 (estimated)
~8/3× SwiGLU
2048
비공개
위 표의 1.4B/7B 이외의 값은 보고되지 않음 (estimated) — public Supp가 부분적으로만 접근 가능했고, 정확한 값은 Supp Table S1 참조 필요.
Compute / Scaling
모델
Training FLOPs
Tokens
비고
1.4B
수 × 10²² (estimated)
subset
open release
7B
10²³ (estimated)
subset
—
98B
1.07 × 10²⁴ (Section 2)
771B
frontier
Scaling 결과: 1.4B → 7B → 98B 로 갈수록 validation cross-entropy와 downstream metric 모두 Chinchilla 유사 power law 추종.
Compute-optimal regime: paper는 “training loss / compute 관점에서 98B는 추가 token으로 더 향상 가능(under-trained 가능성)“을 시사 (Section 2 toward end).
이론적 의의
Multimodal scaling law 검증: 단일 modality LM(ESM-2)의 scaling이 sequence+structure+function 조인트 분포에도 성립함을 대규모로 입증.
Discrete structure tokenization의 실용성: diffusion 기반(RFDiffusion) 없이도 transformer 인프라만으로 구조 생성 가능성 제시 → LLM ↔ 구조생성 통합.
“In silico evolution”: natural fitness landscape 밖의 기능 보존 변이를 생성할 수 있어, 진화 시뮬레이션 도구로서의 LM 역할 제안.