언어 모델로 5억 년의 진화를 시뮬레이션하다 (Simulating 500 Million Years of Evolution with a Language Model)

Digest (CISELQ)
Context — 단백질의 sequence(1차 서열), structure(3차 구조), function(기능 주석)은 진화 과정에서 상호 결합된 세 가지 modality(양상)로 존재하지만, 기존 protein language model(단백질 언어모델)은 주로 서열만 학습하거나(ESM-2), 구조를 예측만 하는 데(AlphaFold 2) 국한되었다. Issue — 구조와 기능을 동시에 조건으로 받거나 생성하는 통합 모델이 없어, “원하는 기능을 가진 새로운 단백질을 de novo 설계”하는 프로그래머블 프로테인 엔지니어링이 어려웠다. Solution — ESM-3는 sequence 토큰 + structure 토큰(VQ-VAE, codebook size 4096) + function 토큰(InterPro / GO / keyword)을 discrete track(이산 트랙)으로 통합하고, 각 트랙에 대해 variable-ratio masked language modeling(가변 비율 마스킹 학습)을 수행하는 bidirectional transformer(양방향 트랜스포머)이다. 1.4B / 7B / 98B 세 스케일로 학습되었고, 98B 모델은 1.07 × 10²⁴ FLOPs를 소비했다. Evidence — 2.78B clustered proteins, 236M experimental + 772M ESMAtlas predicted structures, 771B unique tokens로 학습하여 sequence perplexity·structure recovery·function classification 모든 지표에서 parameter / compute에 따른 clean scaling law를 보였다. Limitations — Context window가 2048 residues로 제한되고, structure VQ-VAE codebook 중 최대 ~70%가 inference 시 inactive(codebook collapse)이며, 98B weight는 미공개(ESM3-open 1.4B만 릴리즈). Question — esmGFP(case study)는 자연계 GFP와 58% sequence identity만 유지하면서 유사한 brightness(형광 강도)를 회복했고, 이는 자연 진화 속도 기준 5억 년 이상의 진화 거리에 해당한다. 이로써 “generative LM이 자연 선택이 탐색할 수 없는 기능-보존 희소 영역을 이동할 수 있는가”에 대한 강한 긍정적 증거가 제시된다.


섹션별 요약

Introduction

  • 단백질은 sequence→structure→function의 계층을 가지며, 진화는 이 세 수준을 동시에 최적화해 왔다.
  • ESM-2(Lin et al., 2023)는 서열만으로 structure emergence를 보였고, AlphaFold 2/3는 structure prediction에 집중. 그러나 “structure·function을 조건으로 받아 sequence를 설계”하거나 역방향 조건을 모두 수행하는 unified generative foundation model은 부재.
  • ESM-3의 제안: 세 modality를 discrete token stream으로 통합하고 masked generative modeling으로 학습 → any-to-any conditioning / decoding 가능.

Methods (요약)

  • Multimodal tokenization: sequence(amino acid) / structure(geometric VQ-VAE) / function(InterPro·GO·keyword) / SS8(secondary structure 8-class) / SASA(solvent accessible surface area) / residue annotation의 6개 discrete track.
  • Training objective: 각 track에 대해 BERT-style masked prediction + variable mask ratio (noise schedule sampled from wide distribution, 0~100%) → iterative decoding at inference.
  • Architecture: bidirectional transformer trunk, Pre-LN, RoPE, SwiGLU, 첫 블록에 SE(3)-invariant geometric attention layer (backbone atomic coords 조건).
  • Scale: 1.4B / 7B / 98B params, 최대 771B unique tokens, 1.07 × 10²⁴ FLOPs (98B).

Results (요약)

  • Scaling: validation loss & downstream evals(structure recovery, function classification)가 parameter/compute에 대해 smooth power law.
  • esmGFP case study: chain-of-thought prompting(SS8 + structure + function prompt)로 GFP-like 단백질을 새로 생성; 자연계 대비 58% identity, 96 mutations / 229 aa, brightness는 natural GFP와 동등.
  • Evolutionary distance: natural GFP 계통 diversification rate에 맞추면 약 5억 년 진화에 해당.
  • Alignment: preference optimization(유사 RLHF)으로 구조·기능 충실도 향상.

Discussion

  • Generative protein LM이 단백질 설계 공간의 “자연이 탐색 못 한 영역”으로 이동할 수 있음을 시사.
  • Safety / dual-use 우려 → ESM3-open은 1.4B로 한정 공개.

Insights

  • Sequence·structure·function 통합 representation이 각각 단일 modality 학습보다 scaling 효율 우수.
  • Discrete structure tokenization이 diffusion 기반 설계(RFDiffusion)보다 “언어모델 인프라 재사용”에 유리.

Discussion Points (토론)

  1. Codebook collapse(~70% inactive) → structure token 표현력의 병목?
  2. Context window 2048 → multimeric / long protein 한계.
  3. ESM3-open(1.4B)만 공개 → 98B 재현성 B급.

메타데이터 표

항목
제목Simulating 500 Million Years of Evolution with a Language Model
저자Hayes et al. (EvolutionaryScale)
발표bioRxiv 2024.07, v2; Science 2025
DOI10.1101/2024.07.01.600583
모델 사이즈1.4B / 7B / 98B
학습 토큰771B unique tokens (Section 2 / blog)
학습 FLOPs (98B)1.07 × 10²⁴
Context window2048 residues
공개 가중치ESM3-open 1.4B only

왜 이 연구를 하는가? (Motivation)

  1. 단백질 진화는 multimodal 최적화: 자연 선택은 sequence만 보지 않고 folded structure와 functional fitness를 동시에 평가한다. 서열만 학습하는 ESM-2 계열은 이 결합 분포를 부분적으로만 포착.
  2. De novo design 병목: RFDiffusion 등 structure-first 생성 모델은 sequence-level fitness / functional annotation을 조건으로 걸기 어렵고, inverse folding(ProteinMPNN)은 구조 → 서열 단일 방향.
  3. Programmable biology: “특정 active site 잔기 + 특정 fold + 특정 InterPro family”를 조건으로 받아 단백질을 생성하는 통합 인터페이스가 필요.
  4. Scaling hypothesis in biology: LLM에서 관찰된 scaling law가 multimodal protein 도메인에서도 성립하는지 체계적으로 검증할 필요.

방법 (Method)

Architecture 개요 (Mermaid)

flowchart TB
    subgraph Inputs["입력 트랙 (Discrete Token Tracks)"]
        S[Sequence tokens<br/>20 AA + special]
        ST[Structure tokens<br/>VQ-VAE, codebook=4096]
        SS[SS8 tokens]
        SA[SASA tokens]
        F[Function tokens<br/>InterPro / GO / keyword]
        RA[Residue annotation]
    end

    subgraph Tok["Tokenization Layer"]
        ES[Seq Embed]
        EST[Struct Embed]
        ESS[SS8 Embed]
        ESA[SASA Embed]
        EF[Func Embed]
        ERA[Annot Embed]
    end

    Inputs --> Tok
    Tok --> SUM((⊕ Sum))
    SUM --> GEO[SE(3)-Invariant<br/>Geometric Attention]
    GEO --> TRUNK[Bidirectional Transformer Trunk<br/>Pre-LN · RoPE · SwiGLU<br/>1.4B / 7B / 98B]
    TRUNK --> DEC{Multi-head Output}
    DEC --> OS[Seq logits]
    DEC --> OST[Struct logits]
    DEC --> OF[Function logits]
    DEC --> OOther[SS8/SASA/Annot logits]

    OS -.iterative decoding.-> S
    OST -.iterative decoding.-> ST
    OF -.iterative decoding.-> F

Tokenization 상세

  1. Sequence track: 20 standard amino acids + BOS/EOS/MASK/PAD.
  2. Structure track (핵심):
    • Geometric VQ-VAE encoder가 각 residue의 local neighborhood(16 nearest neighbors) 백본 기하 정보를 받아 latent vector 생성.
    • Vector quantization: codebook size = 4096 (Supp Table; 검증은 Dissecting ESM3 blog 및 Section 2).
    • All-atom decoder (~700M params)가 structure token → atomic coordinates 복원.
  3. Function track:
    • InterPro family IDs + GO terms + keyword 집합을 이산 vocabulary로 인코딩.
    • 각 residue 단위로 정렬하여 residue-level 조건부 생성 가능.
  4. SS8 / SASA: DSSP 기반 8-class secondary structure, SASA는 discretized bin.

Variable-ratio Masked Generative Objective

  • 각 mini-batch마다 noise level (또는 wide distribution)를 샘플.
  • 각 track 독립적으로 mask ratio 적용 → 0% (full context)부터 100% (unconditional generation)까지 모두 학습.
  • Loss: cross-entropy on masked positions, 각 track 별로 weight 조정.
  • Inference: iterative decoding — 가장 confident 한 position부터 점진적 unmask (MaskGIT 스타일).

학습 Hyperparameter 표 (reported + estimated)

항목Source
OptimizerAdamWSupp (typical, 명시)
β1, β20.9, 0.95Supp (estimated, 일반적)
Weight decay0.1보고되지 않음 (estimated)
Peak LR (98B)1e-4보고되지 않음 (estimated)
LR schedulecosine with warmupSupp
Batch size (tokens)수 M tokens보고되지 않음 (estimated)
Context length2048 residuesSection 2
Total unique tokens771BAbstract / Section 2
Training FLOPs (98B)1.07 × 10²⁴Section 2 / blog
Precisionbf16 mixedSupp (estimated)
HardwareNVIDIA H100 clusterBlog
GPU count수천 H100 (estimated)보고되지 않음 (estimated)
Masking noise schedulevariable, sampledSection 2
Positional encodingRoPEArchitecture summary
NormPre-LN (RMSNorm variant)Architecture summary
ActivationSwiGLUArchitecture summary
Geometric attention1st block only, SE(3)-invariantMethods

Alignment 단계

  • Preference optimization(RLHF-유사) 로 생성 품질(구조 충실도·function 보존) 개선; 세부 hyperparameter는 Supp.

발견 (Findings)

esmGFP Case Study (핵심)

  • 목표: GFP의 chromophore-forming 잔기(T65, Y66, G67에 해당하는 canonical triad)와 β-barrel fold를 조건으로 받아, 자연계 GFP와 최대한 다른 서열을 생성.
  • 프롬프트 구성: function(GFP family InterPro), 핵심 잔기의 sequence + structure token, 나머지는 mask.
  • 생성 절차: 98B ESM3로 iterative decoding → 후보 단백질 발현 실험 → 96-well plate 스크리닝 → 최종 esmGFP (well C10) 선정.
지표의미
서열 길이229 aa자연 GFP와 동급
가장 가까운 자연 GFP와 identity약 42% (96 mutations, 즉 58% similar)매우 먼 homolog
Brightnessnatural GFP와 비슷기능 유지
초기 후보 B8 brightnessnatural 대비 ~1/50iterative refinement 전
Evolutionary distance (추정)> 5억 년natural GFP 계통의 diversification rate 기반

Scaling Results

Axis관찰
Sequence perplexityparams↑ → perplexity↓ (power law)
Structure token recoveryparams↑ → recovery↑, 98B에서 plateau 없음
Function classification F1params↑ → F1↑
Generative fidelity (scTM)params↑ → self-consistent TM score↑

생성 다양성

  • 98B는 동일 prompt에서 sequence diversity 유지하면서 structural fidelity 보존 → “자연이 탐색 못 한 영역” 커버 주장을 뒷받침.

데이터셋 상세 (별도 섹션 강조!)

출처타입규모비고
UniRefSequence~수억 clustered sequencesUniRef50 기반 cluster
MGnifySequence (metagenomic)수십억environmental diversity 확장
JGI (IMG)Sequence (metagenomic)추가 수억microbial dark matter
OAS (Observed Antibody Space)Sequence (antibody)~수십억immune repertoire
PDBExperimental structure~214K chains고신뢰 실험 구조
AlphaFold DB (AFDB)Predicted structure~214MAF2 예측
ESMAtlasPredicted structure~772MESM-2 기반 metagenomic 예측
InterProFunction annotation~40K familiesfunction token vocab
GOFunction ontology~45K termskeyword token
총 단백질 (clustered)2.78BAbstract
총 unique 학습 토큰771BAbstract

Curation

  • Cluster-level sampling으로 redundancy 축소 (UniRef50 수준).
  • Structure data는 AFDB pLDDT 필터링 + ESMAtlas pLDDT filtering.
  • Function annotation은 InterPro 정렬 기반 residue-level aligning.
  • Low-quality / contaminated sequences(짧은 N-term·반복서열)는 제거.

모델 파라미터 상세 (별도 섹션 강조!)

주의: 본 논문 v2 main text는 총 파라미터 수만 명시하고 layer/hidden/head 세부 값은 Supplementary Table S1에 제시. 공개 릴리즈(ESM3-open 1.4B) 기준으로 교차검증 가능한 값과, 보고되지 않아 scaling law convention(Chinchilla-like aspect ratio)으로 추정한 값을 구분한다.

모델ParamsLayersHidden dim HeadsFFN dimContextNotes
ESM3-small1.4B (Supp T S1)~48~1536~24~4× (SwiGLU so 8/3×)2048공개 weight
ESM3-medium7B (Supp T S1)~36~4096~32~8/3×2048내부
ESM3-large98B (Supp T S1)~216 (estimated)~6144 (estimated)~48 (estimated)~8/3× SwiGLU2048비공개

위 표의 1.4B/7B 이외의 값은 보고되지 않음 (estimated) — public Supp가 부분적으로만 접근 가능했고, 정확한 값은 Supp Table S1 참조 필요.

Compute / Scaling

모델Training FLOPsTokens비고
1.4B수 × 10²² (estimated)subsetopen release
7B10²³ (estimated)subset
98B1.07 × 10²⁴ (Section 2)771Bfrontier
  • Scaling 결과: 1.4B → 7B → 98B 로 갈수록 validation cross-entropy와 downstream metric 모두 Chinchilla 유사 power law 추종.
  • Compute-optimal regime: paper는 “training loss / compute 관점에서 98B는 추가 token으로 더 향상 가능(under-trained 가능성)“을 시사 (Section 2 toward end).

이론적 의의

  1. Multimodal scaling law 검증: 단일 modality LM(ESM-2)의 scaling이 sequence+structure+function 조인트 분포에도 성립함을 대규모로 입증.
  2. Discrete structure tokenization의 실용성: diffusion 기반(RFDiffusion) 없이도 transformer 인프라만으로 구조 생성 가능성 제시 → LLM ↔ 구조생성 통합.
  3. “In silico evolution”: natural fitness landscape 밖의 기능 보존 변이를 생성할 수 있어, 진화 시뮬레이션 도구로서의 LM 역할 제안.
  4. Programmable biology 인터페이스: InterPro/GO/잔기/구조를 자연어처럼 prompt로 사용 — “protein prompt engineering” 패러다임.

재현성 및 신뢰도 평가

평가근거
Code 공개A-github.com/evolutionaryscale/esm 공개
Weights 공개C+1.4B(ESM3-open)만, 98B 비공개
Data pipelineBUniRef/MGnify/JGI 등 출처는 공개지만 clustering/curation script 일부 미공개
Hyperparameter 명시BSupp Table S1 의존
Eval reproducibilityB+esmGFP wet-lab은 외부 재현 어려움
OverallBmain 결과 아이디어는 재현 가능, 98B 수준 재학습은 불가

관련 연구 비교 매트릭스

ESM-2AlphaFold 2AlphaFold 3ProGen2RFDiffusionESM-3
Input modalitySeq onlyMSA+templateSeq+complexSeq onlyStructureSeq+Struct+Func
OutputSeq MLM / repr3D structure3D complexSeq ARStructure (backbone)All modalities
Generative✓ (causal)✓ (diffusion)✓ (masked, any-to-any)
Max params15B~100M~400M6.4B~60M98B
Structure repimplicitcontinuous coordscontinuouscontinuousdiscrete VQ tokens
Function cond제한적InterPro/GO/keyword tokens
Iterative decodingrecyclingrecyclingdiffusion stepsMaskGIT-style
Open weights✓ (all)partial1.4B only


원자적 인사이트 (Atomic Insights)

  1. “3-modality를 discrete token으로 통일하면 transformer 인프라를 그대로 재사용할 수 있다” — diffusion 없이 LLM 파이프라인만으로 구조 생성을 할 수 있다는 실용적 메시지.
  2. “Variable mask ratio가 zero-shot any-to-any conditioning을 만든다” — BERT-style 고정 15% 마스킹이 아니라, 0~100% 범위 noise schedule이 inference 유연성의 핵심.
  3. “Function 보존 희소 영역으로의 이동은 LM prompt로 달성 가능하다” — esmGFP는 generative LM이 자연 선택의 탐색 trajectory 밖에서도 기능을 보존할 수 있음을 보여주는 최초의 대규모 wet-lab 증거.
  4. “Geometric attention을 첫 블록에만 두면 충분” — SE(3) invariance는 입력 단계에서만 inductive bias로 주고, 이후는 일반 transformer로도 구조 신호가 보존됨.
  5. “Protein scaling law가 1.07 × 10²⁴ FLOPs까지 깨지지 않는다” — biology 도메인에서 LLM급 scaling이 경험적으로 성립한다는 강력한 신호.

핵심 용어 정리

용어정의
Multimodal masked LM여러 modality 각각에 마스킹을 적용해 동시 예측하는 masked language model
Structure tokenization3D coord를 local geometry encoder + VQ로 discrete token화 (codebook=4096)
Geometric attentionSE(3)-invariant attention; backbone coord 조건
Variable mask ratio0~100% 범위에서 샘플링된 noise schedule
Iterative decodingconfidence-ordered unmasking (MaskGIT)
InterPro단백질 family/domain annotation DB
GFPGreen Fluorescent Protein (β-barrel, T-Y-G chromophore)
Brightness양자수율 × 소광계수, 형광 단백질 성능 지표
Sequence identity두 단백질 정렬 후 동일 잔기 비율
Evolutionary distance진화적 시간으로 환산한 서열/구조 차이
scTM scoreself-consistent TM-score, 생성 단백질의 구조 신뢰도
Codebook collapseVQ-VAE 코드 일부만 사용되는 현상
pLDDTAlphaFold 구조 신뢰도 (per-residue)
ESMAtlasESM-2 기반 metagenomic 구조 예측 DB (~772M)

태그

Paper Biology ProteinLM ESM3 MultimodalLM GenerativeModel MaskedLM StructureTokenization VQVAE GFP FoundationModel EvolutionaryScale ScalingLaw ProteinDesign Bioinformatics