진화 스케일의 원자 수준 단백질 구조 예측: 언어 모델 기반 접근 (ESM-2 / ESMFold)

Digest (CISELQ). Context: 기존 고정밀 단백질 구조 예측기(AlphaFold2, RoseTTAFold)는 MSA(Multiple Sequence Alignment, 다중 서열 정렬) 구축에 10분 이상을 소모하며 메타게놈(metagenome, 환경 시료 유래 미생물 유전체) 수억 개 서열 규모로는 실용성이 떨어진다. Insight: 저자들은 “진화적으로 보존된 패턴을 채우는 MLM(Masked Language Modeling, 마스크 언어 모델링) 목적함수가 단백질의 3차원 구조를 암묵적으로 내재화할 것”이라 가정하고, 8M→15B 파라미터까지 6단계 스케일링을 통해 perplexity ↔ contact precision ↔ atomic-resolution TM-score 간 강한 상관(-0.99 ~ -1.00)을 실증한다. Solution: (1) UniRef50 클러스터 ~43M · UniRef90에서 epoch당 ~65M unique 시퀀스 샘플링으로 학습한 ESM-2 (MLM, 15% masking), (2) 그 위에 ESMFold folding head (48-block folding trunk + 8-block structure module + 3-step recycling)를 PDB 25K 클러스터(~325K 구조) + AlphaFold2-distillation 12M 구조로 학습하여 MSA 없이 단일 서열만으로 구조를 예측. Evidence: ESMFold는 CAMEO에서 평균 TM-score 0.83, CASP14에서 0.68로 RoseTTAFold(0.82, CAMEO)과 동등하며, V100 GPU 단일 카드에서 384-residue 단백질을 14.2초에 예측(AlphaFold 대비 최대 60× 가속). Metagenomic Atlas617M 구조2,000 GPU 클러스터에서 2주에 완성, 고신뢰(pLDDT>0.7, pTM>0.7) 225M 구조를 공개. Limitations: (a) MSA 활용 AlphaFold2 대비 CAMEO −0.05, CASP14 −0.17 LDDT; (b) perplexity가 높은(>10) 서열(희귀/고유 진화)은 정확도 급락; (c) multimer 전용 학습 부재; (d) 15B 학습 자원 비대칭(학계 재현 난이도↑). Open Questions: 스케일링 법칙이 100B+까지 이어지는가? Structure-conditioned pretraining이 같은 효과를 더 효율적으로 달성할 수 있는가(→ESM-3)? metagenomic fold space의 생물학적 해석?


섹션별 요약

Introduction

  • 단백질 서열은 진화의 선택압을 기록한 “생물학적 구조/기능의 이미지”. 패턴에서 구조/기능을 추론하는 전통(HMM, coevolution, deep learning, AlphaFold2)을 **“LM이 무감독으로 확장”**하자는 아이디어.
  • 핵심 가설: “결측 아미노산을 채우는 과제를 풀려면 LM은 서열 패턴을 만드는 underlying structure를 내재화해야 한다”. 규모↑ → emergence.
  • 목표: (1) emergence 실증, (2) MSA-free 원자수준 예측기, (3) metagenomic 617M 규모 구조 Atlas.

Methods

  • ESM-2: BERT-style encoder-only transformer, MLM 15%, UniRef50/90 기반 학습, 6개 스케일 (8M/35M/150M/650M/3B/15B).
  • Folding head (ESMFold): 48 folding blocks (sequence rep + pair rep 교대 업데이트, triangular updates 포함) → 8-block equivariant structure module → 3-step recycling.
  • 어텐션 맵에서 contact map 선형 추출(무감독), linear projection으로 contact precision 측정.
  • 학습 데이터: PDB ~325K 구조 (~25K 클러스터) + AlphaFold2로 예측한 ~12M 구조 distillation. AlphaFold2의 loss를 그대로 사용(FAPE, distogram, pLDDT, masked-MSA 유사 항 등).

Results

  • Perplexity: 8M=10.45 → 15B=6.37 (hold-out ~500K UniRef50 클러스터, 270K steps 동일 비교).
  • Long-range contact P@L: 모델 규모에 따라 단조 증가; 150M ESM-2 ≈ 650M ESM-1b.
  • TM-score (CASP14+CAMEO combined): 15B = CAMEO 0.72, CASP14 0.55 (structure-module-only head, no folding trunk).
  • ESMFold 전체: CAMEO 0.83, CASP14 0.68 (vs AlphaFold2 0.88 / 0.85).
  • 속도: V100 기준 384-res 14.2s (AlphaFold 대비 6×, 짧은 서열에서 최대 ~60×).
  • Metagenomic Atlas: 617M 예측, 225M 고신뢰 (pLDDT>0.7 ∧ pTM>0.7), 76.8%는 UniRef90에 90% identity 매치 없음 → 진화적 참신성.
  • 상관: 검증 perplexity ↔ CASP14 TM-score = -0.99; ↔ CAMEO TM-score = -1.00. Long-range contact precision ↔ TM-score = 0.96–0.99.

Discussion

  • “LM perplexity가 낮은 서열에서는 MSA 없이도 AlphaFold2와 동급” → MSA가 주는 정보가 충분히 큰 LM으로 대체 가능.
  • pLDDT/pTM은 잘 calibrated → downstream 필터로 사용 가능.
  • Ablation: folding trunk 제거 시 LDDT 0.74→0.66, LM 제거 시 →0.58로 급락 → LM representation이 critical.

Insights

  1. Emergence는 단절적(non-linear, jump-shaped): 개별 단백질 단위에서 특정 scale threshold를 넘어야 RMSD가 급락.
  2. 낮은 MSA depth 단백질일수록 큰 모델이 더 큰 이득을 준다 → scale은 “rare evolutionary path”를 보강.
  3. LM perplexity는 구조 예측 품질의 강력한 proxy: MSA가 없어도 신뢰도 추정이 가능해진다.

Discussion Points

  • 15B 학습에 투입된 2000 GPU·2주는 메타게놈 수준 inference를 정당화하지만 reproduce 난이도가 높다.
  • Structure-aware pretraining (e.g. ESM-3 multi-track)로 대체/증강 가능성.
  • Homo/hetero-oligomer에는 직접 학습 없이도 53.2% DockQ 카테고리 일치 — multimer-aware 학습이 차세대 과제.

메타데이터 표

항목출처
논문 제목Evolutionary-scale prediction of atomic-level protein structure with a language modelPaper p.1
저자Lin, Akin, Rao, Hie, Zhu, Lu, Smetanin, Verkuil, Kabeli, Shmueli, Fazel-Zarandi, Sercu, Candido, Rives (FAIR, Meta AI)Paper p.1
게재지Science 379, 1123–113017 Mar 2023
DOI10.1126/science.ade2574
arXiv / bioRxiv— / 10.1101/2022.07.20.500902 (v3)
모델 규모8M / 35M / 150M / 650M / 3B / 15BPaper p.2
학습 데이터UniRef50 클러스터 ~43M · UniRef90 ~138M 서열 → epoch당 ~65M uniquePaper p.2
ESMFold 구조 학습PDB ~25K 클러스터 / ~325K 구조 + AlphaFold2-predicted ~12M 구조 (self-distillation)Paper p.5
컴퓨팅 (Atlas)~2000 GPU · 2 weeks for 617M inferencesPaper p.5
주요 지표CAMEO TM 0.83 / CASP14 TM 0.68 (ESMFold), 15B perplexity 6.37Paper Fig.1/2
라이선스 / 공개esmatlas.com (Atlas), github.com/facebookresearch/esmPaper

왜 이 연구를 하는가?

핵심 질문

  1. MLM pretraining만으로 단백질 3차원 구조가 표현 공간에 emerge하는가?
  2. 그 emergence는 연속적 vs 단절적인가, 어떤 지표로 측정 가능한가?
  3. 구조 예측을 MSA-free·single-sequence로 전환하면 속도·규모 모두를 확장해 metagenomic scale로 밀 수 있는가?

기존 한계 표

기존 접근한계본 연구의 해소
AlphaFold2 / RoseTTAFold (MSA-based)MSA 탐색에 10분+/서열, 메타게놈 617M 불가MSA 제거 → 최대 60× 가속, V100 단일 카드
ESM-1b (650M), ProtTrans낮은 contact precision, 원자 수준 X23× 파라미터 확장, folding head로 원자 수준 달성
단일 서열 AlphaFold (ablated)TM-score 급락ESMFold는 동일 단일 서열 세팅에서 크게 앞섬
Trilobyte/IgFold 등 sequence-only난제 단백질에서 low accuracyLM scale로 난제까지 커버

핵심 통찰

  • “perplexity = structure proxy”: 언어 모델링 난이도와 구조 예측 정확도가 -1.0에 가까운 상관 → LM fidelity가 생물학적 타당성의 신호.
  • scale이 MSA를 대체: 진화적 co-occurrence가 LM 파라미터에 “암묵 MSA”로 응축.
  • 단절적 emergence: 전체 곡선은 매끄럽지만 개별 단백질 단위에서는 threshold crossing.

방법 (Method)

Mermaid 파이프라인

flowchart LR
    A["Input: Single Protein Sequence<br/>(e.g. EGRLTVYCTVQ...)"] --> B
    subgraph ESM2["ESM-2 Transformer (encoder-only MLM)<br/>8M / 35M / 150M / 650M / 3B / 15B"]
        B["Token Embedding<br/>+ Rotary PE"] --> C["N × Transformer Blocks<br/>(Self-Attention + FFN)"]
        C --> D1["Seq Representation<br/>(per-residue)"]
        C --> D2["Attention Maps<br/>(L×L×H tensor)"]
    end
    D1 --> E
    D2 --> E
    subgraph ESMFold["ESMFold Folding Head (no MSA)"]
        E["Folding Trunk<br/>48 blocks<br/>Seq Rep ↔ Pair Rep<br/>(triangular updates)"] --> F["Structure Module<br/>8 blocks<br/>Equivariant Transformer"]
        F --> G{"Recycling<br/>×3"}
        G -->|yes| E
        G -->|done| H["3D Atomic Coordinates<br/>+ pLDDT + pTM"]
    end

    style ESM2 fill:#eef,stroke:#446
    style ESMFold fill:#efe,stroke:#464

핵심 구성요소

  1. ESM-2 MLM: BERT-style, 15% 토큰을 마스크하고 원본 아미노산 예측. ESM-1b 대비 rotary positional embedding 및 아키텍처 개선 (SM A.1.1).
  2. Folding Trunk: AlphaFold2 Evoformer와 유사하게 sequence/pair representation을 교대 갱신하되 MSA 축 제거, 48블록.
  3. Equivariant Structure Module: AlphaFold2 IPA-계열 구조 모듈을 8블록으로 경량화, 3회 recycling.
  4. Self-distillation: PDB 부족을 보완하기 위해 AlphaFold2로 예측한 12M UniRef 구조를 pseudo-label로 추가 사용.

학습 방법론 상세 표 (ESM-2 Pretraining)

항목출처/비고
ObjectiveMasked Language Modeling (BERT-style)Paper p.2, Eq.(1)
Mask ratio15% of positionsPaper p.2
Mask 분해BERT 관행: 80% [MASK], 10% random token, 10% unchanged (SM A.1.1)BERT-스타일 (보고되지 않은 세부는 표준을 따른다고 SM A.1.1에 명시)
TokenizerPer-residue amino-acid vocab (20 AA + special)표준 ESM
Positional encodingRotary (RoPE) — ESM-1b의 learned PE에서 변경SM A.1.1
OptimizerAdam (β1=0.9, β2=0.98, ε=1e-8)SM (ESM-1b와 동일 관행) — 보고되지 않은 정확값은 estimated
Peak LR4e-4 (650M 이하), 1.6e-4 ~ 4e-4 규모별 조정SM A.1.1 (정확 값 보고됨; 15B는 1.6e-4 근방)
LR scheduleLinear warmup 2,000 steps → inverse-sqrt decaySM A.1.1
Weight decay0.01SM A.1.1
Grad clipping1.0표준 ESM (estimated)
Global batch size2M tokens/step (규모별 튜닝)SM A.1.1
Training steps (비교)모든 스케일 270,000 steps에서 공정 비교Paper p.2
HardwareNVIDIA V100 / A100 cluster. 15B은 다수 A100 node.SM A.1.1 / p.5
Cluster 규모 (reference)Metagenomic inference: ~2,000 GPUs, 2 weeksPaper p.5
PrecisionFP16 mixed precision + model-parallel (15B)SM A.1.1
Model-parallelTensor-parallel for 3B/15BSM (estimated)

ESMFold Folding Head 학습 상세

항목출처
BackboneESM-2 3B (frozen LM representations 또는 end-to-end fine-tune)Paper p.5
Folding trunk48 blocks (seq↔pair with triangular multiplicative + attention)Fig.2A
Structure moduleEquivariant transformer, 8 blocksPaper p.5
Recycling3 passes (AlphaFold2와 동일)Paper p.5
Supervised dataPDB ~25,000 clusters / ~325,000 experimental structures (May 2020 temporal cutoff)Paper p.5
Distillation data~12,000,000 AlphaFold2-predicted structures (UniRef 기반)Paper p.5
LossAlphaFold2와 동일 세트: FAPE(Frame-Aligned Point Error) + distogram + pLDDT + auxiliary violations + masked-MSA (single-seq 변형)Paper p.5 (ref 45)
Confidence headspLDDT, pTM (AF2와 동일 formulation)Paper p.5
ValidationCAMEO 194 (Apr–Jun 2022), CASP14 51Paper p.5
Training GPUs보고되지 않음 (estimated: ~128 A100 for 수 주)SM A.3

발견 (Findings)

모델 규모별 아키텍처 · 성능 표

모델LayersHidden dHeadsFFN dParamsHold-out PerplexityCASP14 TM (head-only)CAMEO TM (head-only)
ESM-2 8M (t6)6320201280~8M10.45~0.26~0.37
ESM-2 35M (t12)12480201920~35M9.120.320.44
ESM-2 150M (t30)30640202560~150M7.700.410.56
ESM-2 650M (t33)331280205120~650M6.950.480.65
ESM-2 3B (t36)3625604010240~3B6.490.520.70
ESM-2 15B (t48)4851204020480~15B6.370.550.72

Perplexity/TM 값은 Paper Fig.1 / Table S1에서 추출. Layers/Hidden/Heads/FFN는 HuggingFace nvidia/esm2_t48_15B_UR50D, facebook/esm2_t33_650M_UR50D 등 공식 체크포인트 config에서 확인 (FFN은 통상 4×hidden). 8M/35M의 head 수는 BioNeMo/HF config 기준 20 (보고되지 않은 일부는 estimated).

ESMFold 최종 성능 (전체 파이프라인)

테스트셋ESMFold TMAlphaFold2 TMRoseTTAFold TM비고
CAMEO (194)0.830.880.82단일 서열 vs. MSA+template
CASP14 (51)0.680.85가장 어려운 타깃 집합
CAMEO (pLDDT>0.7 subset)LDDT ≈ 0.830.85High-confidence subset

속도

  • 384-res 단백질, V100 단일 GPU: 14.2 s (AlphaFold2 대비 ). 짧은 서열에서 최대 ~60× (fig S2).
  • Metagenomic 617M 예측: ~2,000 GPU × 2 weeks.

Scaling Law 관찰

  • 전역적 단조 개선: 8M→15B에서 perplexity 10.45→6.37, CAMEO TM(head) 0.37→0.72.
  • 단절적 개별-단백질 개선: 예) 7QQA RMSD 7.0→3.2 Å at 35M→150M 전이, T1056 RMSD 4.0→2.6 Å at 3B→15B 전이. jump 사이 구간에서는 변화 작음.
  • -0.99/-1.00 상관: validation perplexity와 TM-score가 거의 완벽한 음의 상관 → LM이 더 잘 이해하는 서열은 구조도 더 잘 예측.
  • Low-MSA sequences 이득: MMseqs hit 수가 적은(<10) 서열에서 모델 확장 효과가 가장 크다 (Fig.1C). 진화적으로 희소한 단백질에 스케일링이 특히 효과적.
  • ESM-1b 대비: 150M ESM-2 ≈ 650M ESM-1b (contact precision 기준) → 아키텍처+데이터 개선으로 파라미터 효율 ~4×.

데이터셋 상세 (강조 섹션)

UniRef 처리 절차

  1. 원천: UniProt 기반 UniRef50 / UniRef90 (release 2021_04). UniRef50은 50% identity로 클러스터링된 대표체, UniRef90은 90% identity 대표체.
  2. 클러스터 수: 학습에 사용된 UniRef50 클러스터 ~43,000,000 (43M). 각 클러스터는 하나의 진화적 “family” 단위.
  3. 서열 풀: 해당 클러스터에 속하는 UniRef90 구성원 ~138,000,000 (138M) 서열이 실질적 샘플링 pool.
  4. 샘플링 전략: “even weighting across ~43M UniRef50 clusters” — epoch마다 각 클러스터에서 UniRef90 대표 서열 1개를 무작위로 샘플 → 한 epoch에서 ~43M 서열을 본다. 여러 epoch을 통해 고유 서열 노출 수가 ~65M unique sequences로 수렴 (Paper p.2).
  5. Hold-out: ~500,000 UniRef50 클러스터를 학습에서 제외하여 validation perplexity 측정 (Paper p.2).

토큰 규모 추정

  • UniRef90 평균 길이 ≈ 약 350 AA (UniProt 통계).
  • 한 epoch 노출 ≈ 43M × 350 ≈ 1.5 × 10¹⁰ tokens/epoch.
  • 270K steps × 2M tokens/batch ≈ 5.4 × 10¹¹ tokens total (약 540B tokens) — GPT-3 학습 토큰(300B)을 상회하는 규모.
    • 정확한 공식 값은 보고되지 않음 (estimated from batch-size × step-count).

ESMFold 학습 데이터

데이터규모용도출처
PDB experimental structures~325,000 구조, ~25,000 MMseqs 클러스터지도 학습 타깃Paper p.5
AlphaFold2 self-distillation~12,000,000 predicted structures (UniRef)Pseudo-label distillationPaper p.5
Temporal cutoffMay 2020Test leak 방지Paper p.5
CAMEO hold-out194 (Apr–Jun 2022)In-domain testPaper p.5
CASP14 hold-out51 (2020 컴페티션)Hard testPaper p.5

이론적 의의

  1. MLM ↔ Structure equivalence (weak form): LM perplexity와 실측 구조의 TM-score가 거의 완벽한 음의 상관(-1.0)을 보이는 것은, MLM 목적함수가 암묵적으로 구조를 학습하는 objective라는 강한 경험적 증거.
  2. Scale as MSA: 생물학에서 “MSA = 진화의 기록”은 공리에 가까웠다. 본 연구는 충분히 큰 LM은 MSA 없이도 같은 정보를 압축할 수 있음을 보여, “alignment-based inductive bias”의 필요성을 약화.
  3. Emergence의 생물학적 해석: LM emergence를 추상적 벤치마크가 아닌 원자 좌표 예측이라는 물리적 관측량으로 검증한 드문 사례.
  4. Metagenomic biology: 617M 구조 Atlas는 “dark proteome”에 대한 첫 대규모 구조 지도로, 진화/기능 분류/약물 타깃 발굴 연구의 기본 인프라를 재편.

재현성 및 신뢰도 평가

요소평가근거
코드 공개Afacebookresearch/esm GitHub 공개, 6개 체크포인트 모두 배포
데이터 공개AUniRef50/90 공개 DB. ESM Metagenomic Atlas esmatlas.com
하이퍼파라미터 문서화B+SM A.1.1–A.3.3에 상세. 일부 세부(β, grad clip)는 코드 확인 필요
벤치마크 객관성ATemporal cutoff + 공개 CAMEO/CASP14 사용
컴퓨팅 요구C15B 학습/2000 GPU 추론은 학계 재현 사실상 불가
통계적 엄밀성A−Pearson/NDCG 상관 모두 보고, Ablation 체계적

주장별 신뢰도

주장신뢰도코멘트
”15B까지 scaling 시 perplexity·구조 정확도 단조 개선”매우 높음6개 scale, 270K steps 동일 조건
”MSA 없는 ESMFold가 AlphaFold2와 high-confidence subset에서 거의 동등”높음pLDDT>0.7 subset에서 LDDT 차 <0.05
”Perplexity가 예측 품질의 proxy로 작동”매우 높음r=-0.99~-1.0
”LM이 MSA 정보를 내재화한다”중간간접적 추론. 직접적 probe는 부분적
”617M Atlas 중 225M가 high-confidence”높음통계 보고됨. 다만 pLDDT의 metagenomic out-of-distribution 보정은 향후 과제

읽기 난이도

  • 중상. AlphaFold2 아키텍처(Evoformer, IPA, FAPE loss)에 대한 사전 이해가 있으면 훨씬 수월. 본문은 의외로 경량이나 SM(~30p)가 핵심 하이퍼파라미터를 담고 있음.

관련 연구 비교 매트릭스

항목ESM-2 / ESMFold (2023)AlphaFold 2 (2021)RoseTTAFold (2021)ProtTrans / ProtT5 (2021)ESM-1b (2021)
입력Single sequenceMSA + templatesMSA + templatesSingle sequenceSingle sequence
LM 규모최대 15B— (no LM)T5-XL 3B650M
구조 예측End-to-end, MSA-freeMSA 필수MSA 필수Xcontact precision만
Training dataUniRef50/90 + PDB 325K + AF2 distill 12MUniRef, PDB, BFDPDB, UniRefUniRef, BFDUniRef50
CAMEO TM0.830.880.82
CASP14 TM0.680.85
속도 (384-res, V100)14.2 s~85 s + MSA 10 min~수십 s + MSA
Licenceopenopen (weights)openopenopen


원자적 인사이트 (Zettelkasten)

💡 A1. “Perplexity = Biological Fidelity”

단백질 MLM perplexity는 단순한 언어모델 지표가 아니라 예측될 3D 구조 품질의 거의 완벽한 proxy다 (r=-0.99~-1.00). 이는 “fluency ≈ world-model quality”라는 LLM 가설의 생물학적 구현 사례이며, downstream 구조 예측 전에 perplexity만으로 신뢰도를 필터링하는 실용적 기법을 정당화한다.

💡 A2. “Scale은 MSA를 응축한다”

전통적으로 구조 예측의 정보원은 MSA(진화적 공변이)였다. ESM-2는 대규모 LM 파라미터 속에 MSA-equivalent 정보를 내재화한다. 이는 단백질 생물정보학의 “정렬 중심 패러다임”을 “파라미터 중심 패러다임”으로 재정의한다. 데이터 병목(드문 단백질)이 있을 때 MSA는 무력하지만, LM은 cross-family generalization으로 보강한다.

💡 A3. “Emergence는 집계적으론 매끄럽지만 개체에선 단절적”

전체 perplexity/TM 곡선은 부드럽지만, 개별 단백질은 특정 scale threshold에서만 급작 개선(RMSD jump)을 보인다. 이는 LLM의 grokking·phase-transition 현상과 공명하며, “어느 단백질이 어느 scale에서 풀리는가”가 새 과학 질문이 된다.

💡 A4. “Self-distillation bootstrap”

12M AlphaFold2-예측 구조를 pseudo-label로 사용 → PDB 한계를 우회. **“큰 모델의 예측이 다음 세대 큰 모델의 지도 신호가 되는 재귀적 데이터 생성”**은 structure-prediction의 데이터 병목을 풀고, ESM-3 multi-track, AlphaFold-Multimer, Foldseek cluster에 확산된다.

💡 A5. “Throughput redefines Biology”

60× 속도 향상은 단순 최적화가 아니다 metagenome 전체(617M)를 2주에 푼다는 것은, **“지구상 단백질 fold space를 1세대 생애 안에 지도화할 수 있다”**는 과학적 scale을 해제한다. 결과적으로 ESM Metagenomic Atlas는 생물학의 “Hubble Deep Field”로 기능.


핵심 용어 정리

용어정의
MLM (Masked Language Modeling)입력 토큰의 일부(15%)를 마스크한 뒤 원본을 복원하는 BERT-style 자기지도 학습 목표.
MSA (Multiple Sequence Alignment)여러 상동 단백질 서열을 정렬해 진화적 공변이(co-evolution) 정보를 추출한 매트릭스. AlphaFold2의 핵심 입력.
Contact prediction잔기 i, j 사이 Cβ 거리 < 8Å인지를 예측. Long-range P@L은 `
TM-score두 구조 사이 정렬 후 구조 유사도(0–1). 0.5 이상이면 같은 fold로 간주.
pLDDTper-residue 예측 신뢰도(0–100). 0.7↑을 high-confidence로 본다.
pTM전체 구조 수준 신뢰도(0–1). Multimer interface에 특히 유용.
FAPE lossFrame-Aligned Point Error. AlphaFold2의 구조 모듈 주 loss — 로컬 프레임에서 원자 위치 오차.
UniRef50 / UniRef90UniProt을 각각 50%, 90% 서열 동일성으로 클러스터링한 대표 서열 DB.
AlphaFold DB self-distillationAlphaFold2가 예측한 고신뢰 구조를 pseudo-label로 사용해 후속 모델을 학습하는 기법.
Triangular updateEvoformer의 pair representation 갱신 연산. 삼각 부등식 일관성을 강제해 거리 행렬을 정제.
Equivariant transformerSE(3)-equivariant attention으로 좌표 회전/평행이동에 대한 대칭성을 보존하는 구조 모듈.
Metagenome환경 시료(토양·바다·장내)에서 샘플링된 “배양되지 않은” 미생물 유전체 집합.
Foldseek구조 데이터베이스에 대한 초고속 구조 검색 도구 (MMseqs의 구조판).
RecyclingAlphaFold2/ESMFold가 예측 결과를 입력으로 재주입하여 N회 반복 정제하는 기법.

태그

Paper Biology ProteinStructure LanguageModel FoundationModel ESM-2 ESMFold Meta-AI Science2023 Scaling-Laws Self-Distillation Metagenomics MSA-Free AlphaFold-Comparison