Frontier LLM 모델 정리 (2026년 3월 기준)

문서 목적

주요 LLM 모델들의 아키텍처, 파라미터 규모, 접근 방식을 연구 관점에서 정리한다.
API-only 모델은 블랙박스 실험(프롬프팅, 행동 분석)에 적합하고,
Open-weight 모델은 내부 representation 분석, 파인튜닝, mechanistic interpretability 연구에 활용 가능하다.

정확도 주의

Closed-source 모델의 파라미터 수, 레이어 수 등은 공식 미공개 사항이 많으며, 유출/추정치를 포함한다.
추정치는 ~ 또는 (추정) 표기를 사용한다. Open-weight 모델은 공식 수치 기반이다.


분류 기준

구분설명연구 활용
API-only (Closed)가중치 비공개, API로만 접근프롬프팅, 행동 실험, benchmark 평가
Open-weight가중치 공개, 라이선스 조건부파인튜닝, probing, activation 분석, SAE 등
Open-source가중치 + 학습 코드/데이터 공개재현 연구, 학습 dynamics 분석

1. OpenAI

GPT-5 (2025.08 출시)

  • 파라미터: 비공개 (~600B 추정, MoE)
  • 아키텍처: MoE (Mixture of Experts), 활성 파라미터 ~200B 추정
  • 컨텍스트 윈도우: 256K tokens
  • 멀티모달: 텍스트, 이미지, 오디오 입출력
  • API 가격: 60 / 1M output tokens (추정)
  • 오픈소스: ❌ Closed
  • 연구 활용: API 호출, 행동 분석, 벤치마크 비교

GPT-5.2 (2026.01 출시)

  • 파라미터: 비공개 (~800B 추정, MoE)
  • 아키텍처: MoE, 활성 파라미터 ~250B 추정
  • 컨텍스트 윈도우: 256K tokens
  • 주요 개선: 추론 성능 향상, 코딩 능력 강화
  • API 가격: 80 / 1M output (추정)
  • 오픈소스: ❌ Closed
  • 연구 활용: API 호출 전용

o3 (2025.04 출시)

  • 파라미터: 비공개
  • 아키텍처: Chain-of-Thought 내재화 모델 (추론 특화)
  • 컨텍스트 윈도우: 200K tokens
  • 특징: 내부 reasoning chain, 수학/코딩/과학 추론 특화
  • API 가격: 추론 시간에 따라 가변 (compute-based pricing)
  • 오픈소스: ❌ Closed
  • 연구 활용: 추론 행동 분석, CoT 패턴 연구

o4-mini (2025.04 출시)

  • 파라미터: 비공개
  • 아키텍처: 경량 reasoning 모델
  • 컨텍스트 윈도우: 200K tokens
  • 특징: o3 대비 빠르고 저렴, 일상 추론 최적화
  • API 가격: o3 대비 ~80% 저렴
  • 오픈소스: ❌ Closed
  • 연구 활용: 비용 효율적 추론 실험

GPT-OSS-120B (2025.12 추정 출시)

  • 파라미터: 120B (Dense 추정)
  • 아키텍처: Dense Transformer
  • 컨텍스트 윈도우: 128K tokens (추정)
  • 특징: OpenAI 최초 오픈소스 모델, Llama 대항마
  • 오픈소스: ✅ 오픈웨이트 (라이선스 조건 미확정)
  • 연구 활용: 파인튜닝, 내부 분석 가능 (출시 후 확인 필요)

2. Anthropic (Claude)

Claude Opus 4.6 (2025.12 출시)

  • 파라미터: 비공개 (~500B 추정)
  • 아키텍처: Dense Transformer (추정), 레이어 수 비공개
  • 컨텍스트 윈도우: 200K tokens
  • 특징: 최고 성능 모델, 복잡한 코딩/분석/장문 작성
  • API 가격: 75 / 1M output
  • 오픈소스: ❌ Closed
  • 연구 활용: API 호출, 행동 분석, Constitutional AI 연구 맥락

Claude Sonnet 4.6 (2025.12 출시)

  • 파라미터: 비공개 (~150B 추정)
  • 아키텍처: Dense Transformer (추정)
  • 컨텍스트 윈도우: 200K tokens
  • 특징: 성능/비용 균형, 일상적 코딩 및 분석에 최적
  • API 가격: 15 / 1M output
  • 오픈소스: ❌ Closed
  • 연구 활용: API 호출, 비용 효율적 대규모 실험

Claude Haiku 4.5 (2025.10 출시)

  • 파라미터: 비공개 (~30B 추정)
  • 아키텍처: Dense Transformer (추정)
  • 컨텍스트 윈도우: 200K tokens
  • 특징: 경량 모델, 빠른 응답, 분류/추출 작업 최적
  • API 가격: 4 / 1M output
  • 오픈소스: ❌ Closed
  • 연구 활용: 대규모 배치 실험, 저비용 데이터 처리

Anthropic 연구 특이사항

Anthropic은 interpretability 연구(Sparse Autoencoder, feature visualization)를 자체 수행하며 논문을 공개하지만, 모델 가중치는 비공개. 외부 연구자는 API 기반 행동 실험만 가능.


3. Google (Gemini)

Gemini 3 Pro (2026.02 출시)

  • 파라미터: 비공개 (MoE 추정)
  • 아키텍처: MoE Transformer, 멀티모달 네이티브
  • 컨텍스트 윈도우: 2M tokens
  • 특징: 초장문 컨텍스트, 멀티모달(텍스트/이미지/비디오/오디오/코드)
  • API 가격: 21 / 1M output (추정)
  • 오픈소스: ❌ Closed
  • 연구 활용: 장문 분석 실험, 멀티모달 연구

Gemini 3 Flash (2026.02 출시)

  • 파라미터: 비공개
  • 아키텍처: MoE (경량), 멀티모달
  • 컨텍스트 윈도우: 1M tokens
  • 특징: Flash 라인업 후속, 속도/비용 최적화
  • API 가격: 0.60 / 1M output (추정)
  • 오픈소스: ❌ Closed
  • 연구 활용: 대규모 배치 실험, 비용 효율적 멀티모달

Gemini 2.5 Pro (2025.03 출시)

  • 파라미터: 비공개 (MoE 추정)
  • 아키텍처: MoE Transformer
  • 컨텍스트 윈도우: 1M tokens
  • 특징: Thinking 모드 지원, 추론 능력 강화
  • API 가격: 10 / 1M output
  • 오픈소스: ❌ Closed
  • 연구 활용: 추론 실험, 장문 분석

4. Meta (Llama)

Llama 4 Scout (2025.04 출시)

  • 파라미터: 109B total (17B active)
  • 아키텍처: MoE, 16 experts, Top-1 routing
  • 레이어 수: 60 Transformer layers
  • Attention: Grouped Query Attention (GQA)
  • 컨텍스트 윈도우: 10M tokens (industry 최대급)
  • 멀티모달: 텍스트 + 이미지 입력
  • 오픈소스: ✅ Llama License (상업적 사용 가능, 월 7억 MAU 이상 별도 허가)
  • 연구 활용: 파인튜닝, probing, activation 분석, MoE routing 연구

Llama 4 Maverick (2025.04 출시)

  • 파라미터: 400B total (17B active)
  • 아키텍처: MoE, 128 experts, Top-1 routing
  • 레이어 수: 92 Transformer layers
  • Attention: GQA
  • 컨텍스트 윈도우: 1M tokens
  • 멀티모달: 텍스트 + 이미지 입력
  • 오픈소스: ✅ Llama License
  • 연구 활용: 대규모 MoE 내부 분석, expert specialization 연구

Llama 4 Behemoth (2025 후반 예정)

  • 파라미터: ~2T total (288B active, 추정)
  • 아키텍처: MoE, 대규모 expert 수 (추정 256+)
  • 특징: 교사(teacher) 모델, Scout/Maverick 증류 소스
  • 오픈소스: ✅ 예정 (Llama License)
  • 연구 활용: 모델 증류 연구, 대규모 MoE 분석

5. DeepSeek

DeepSeek-V3 (2024.12 출시)

  • 파라미터: 671B total (37B active)
  • 아키텍처: MoE, 256 experts + 1 shared expert, Top-8 routing
  • 레이어 수: 61 Transformer layers
  • Attention: Multi-head Latent Attention (MLA)
  • 컨텍스트 윈도우: 128K tokens
  • 학습 비용: ~$5.6M (H800 GPU 2048개, 2개월)
  • 오픈소스: ✅ MIT License
  • 연구 활용: 완전 오픈소스, 학습 코드 포함, MLA/MoE 아키텍처 연구, 내부 레이어 분석

DeepSeek-V3.1 (2025.06 추정)

  • 파라미터: 671B total (37B active) — V3 기반 개선
  • 아키텍처: V3와 동일 구조, 학습 데이터/기법 개선
  • 컨텍스트 윈도우: 128K tokens
  • 오픈소스: ✅ MIT License
  • 연구 활용: V3와 동일 수준의 내부 접근 가능

DeepSeek-V3.2 (2025.12 추정)

  • 파라미터: 비공개 (V3 대비 확장 추정)
  • 아키텍처: MoE + MLA 계열 (개선)
  • 컨텍스트 윈도우: 128K+ tokens
  • 오픈소스: ✅ MIT License (예상)
  • 연구 활용: 최신 MoE 연구 기반

DeepSeek-R1 (2025.01 출시)

  • 파라미터: 671B total (37B active) — V3 기반
  • 아키텍처: V3 + RL-based reasoning (GRPO)
  • 컨텍스트 윈도우: 128K tokens
  • 특징: Chain-of-Thought 추론 특화, RL로 reasoning 학습
  • 오픈소스: ✅ MIT License
  • Distill 모델: R1-Distill-Qwen-32B, R1-Distill-Llama-70B 등 다수 공개
  • 연구 활용: RL reasoning 연구, CoT 내부 분석, 증류 효과 연구

DeepSeek-R2 (2026 상반기 예정)

  • 파라미터: 미공개
  • 아키텍처: 차세대 reasoning 모델 (예상)
  • 특징: R1 후속, 향상된 추론 및 코딩 능력 예상
  • 오픈소스: ✅ 예상 (MIT License)
  • 연구 활용: 출시 후 확인

DeepSeek 연구 가치

DeepSeek은 MIT License로 학습 코드까지 공개하여 재현 연구에 가장 적합하다.
MLA (Multi-head Latent Attention)는 KV cache를 크게 줄이는 독자 아키텍처로, attention 메커니즘 연구에 핵심 자료.


6. Qwen (Alibaba)

Qwen3 (2025.04 출시)

  • 파라미터: 다양한 크기 제공
    • Qwen3-235B-A22B: 235B total, 22B active (MoE)
    • Qwen3-32B: 32B (Dense)
    • Qwen3-30B-A3B: 30B total, 3B active (MoE)
    • Qwen3-14B / 8B / 4B / 1.7B / 0.6B (Dense)
  • 아키텍처:
    • MoE 모델: 128 experts (235B), 128 experts (30B), Top-K routing
    • Dense 모델: Standard Transformer
    • 모든 모델에 Thinking Mode (내부 추론) 지원
  • Attention: GQA (Grouped Query Attention)
  • 컨텍스트 윈도우: 128K tokens (YaRN 확장으로 최대 256K)
  • 오픈소스: ✅ Apache 2.0 License
  • 연구 활용: 다양한 크기로 스케일링 법칙 연구, 파인튜닝, probing, thinking mode 분석

Qwen3-Next (2025 하반기~2026 예상)

  • 파라미터: 미공개 (Qwen3 대비 확장 예상)
  • 아키텍처: 차세대 Qwen 시리즈
  • 오픈소스: ✅ 예상 (Apache 2.0)
  • 연구 활용: 출시 후 확인

Qwen3.5 (2026 예정)

  • 파라미터: 미공개
  • 아키텍처: Qwen 계열 진화 (예상)
  • 오픈소스: ✅ 예상 (Apache 2.0)
  • 연구 활용: 출시 후 확인

Qwen 연구 가치

Apache 2.0 라이선스로 가장 자유로운 사용 가능. Dense (0.6B32B)와 MoE (30B235B) 모두 제공하여 모델 크기별 비교 연구에 이상적.


7. Mistral

Mistral Large 3 (2025.03 출시)

  • 파라미터: ~123B (Dense 추정)
  • 아키텍처: Dense Transformer
  • 레이어 수: 88 layers (추정)
  • Attention: GQA
  • 컨텍스트 윈도우: 128K tokens
  • 특징: Mistral 플래그십 모델, 다국어 강점
  • 오픈소스: ✅ Mistral License (연구 및 상업적 사용 가능)
  • 연구 활용: 파인튜닝, 내부 분석, 다국어 모델 연구

Codestral (2025.01 출시)

  • 파라미터: ~22B (추정)
  • 아키텍처: Dense Transformer, 코드 특화
  • 컨텍스트 윈도우: 256K tokens
  • 특징: 코드 생성/이해 특화, FIM (Fill-in-the-Middle) 지원
  • 오픈소스: ✅ Non-production License (연구용 무료)
  • 연구 활용: 코드 모델 내부 분석, FIM 메커니즘 연구

Devstral (2025.05 출시)

  • 파라미터: ~24B (추정)
  • 아키텍처: Dense Transformer, 에이전트 코딩 특화
  • 컨텍스트 윈도우: 128K tokens
  • 특징: 코드 에이전트 최적화, SWE-bench 고성능
  • 오픈소스: ✅ Apache 2.0 License
  • 연구 활용: 코드 에이전트 행동 분석, 파인튜닝

모델 비교 표

Closed-Source 모델 비교

모델회사파라미터 (추정)아키텍처컨텍스트Input 가격 (/1M)Output 가격 (/1M)
GPT-5.2OpenAI~800B (MoE)MoE256K~$20~$80
GPT-5OpenAI~600B (MoE)MoE256K~$15~$60
o3OpenAI비공개Reasoning200K가변가변
o4-miniOpenAI비공개Reasoning (경량)200K저가저가
Opus 4.6Anthropic~500B (추정)Dense200K$15$75
Sonnet 4.6Anthropic~150B (추정)Dense200K$3$15
Haiku 4.5Anthropic~30B (추정)Dense200K$0.80$4
Gemini 3 ProGoogle비공개 (MoE)MoE2M~$7~$21
Gemini 3 FlashGoogle비공개 (MoE)MoE1M~$0.15~$0.60
Gemini 2.5 ProGoogle비공개 (MoE)MoE1M$1.25$10

Open-Weight 모델 비교

모델회사파라미터 (total/active)아키텍처레이어컨텍스트라이선스
Llama 4 BehemothMeta~2T / 288BMoE미공개미공개Llama
Llama 4 MaverickMeta400B / 17BMoE 128E921MLlama
Llama 4 ScoutMeta109B / 17BMoE 16E6010MLlama
DeepSeek-V3DeepSeek671B / 37BMoE 256E + MLA61128KMIT
DeepSeek-R1DeepSeek671B / 37BMoE + GRPO61128KMIT
Qwen3-235BAlibaba235B / 22BMoE 128E미공개128KApache 2.0
Qwen3-32BAlibaba32B (Dense)Dense미공개128KApache 2.0
Mistral Large 3Mistral~123B (Dense)Dense~88128KMistral
CodestralMistral~22BDense미공개256KNon-prod
DevstralMistral~24BDense미공개128KApache 2.0
GPT-OSS-120BOpenAI120B (Dense)Dense미공개128K미확정

연구 활용 가이드

API-only 연구 (Closed 모델)

  • 적합한 연구: 벤치마크 평가, 프롬프트 엔지니어링, 행동 분석, 인지 실험
  • 도구: OpenAI API, Anthropic API, Google AI Studio
  • 한계: 내부 representation 접근 불가, 재현성 제한 (모델 업데이트 시 변동)

Open-weight 연구

  • 적합한 연구: 파인튜닝, LoRA, probing classifiers, activation patching, SAE 분석
  • 추천 모델:
    • 내부 분석: DeepSeek-V3 (MIT, 학습 코드 공개), Qwen3 시리즈 (Apache 2.0)
    • MoE 연구: Llama 4 Scout/Maverick, DeepSeek-V3
    • 스케일링 연구: Qwen3 (0.6B~235B 풀 라인업)
    • 코드 모델: Devstral (Apache 2.0), Codestral
  • 인프라: H100/A100 GPU 클러스터, vLLM/TGI 서빙

라이선스 비교

라이선스상업적 사용수정/재배포대표 모델
MIT✅ 자유✅ 자유DeepSeek 전 모델
Apache 2.0✅ 자유✅ 자유Qwen3, Devstral
Llama License✅ (MAU 제한)✅ (조건부)Llama 4 시리즈
Mistral License✅ (조건부)Mistral Large 3
Non-production✅ (연구만)Codestral

주요 아키텍처 트렌드 (2025-2026)

  1. MoE 지배: 대부분의 frontier 모델이 MoE 채택 → 학습/추론 효율성
  2. Reasoning 모델 분화: o3, R1 등 추론 특화 모델이 별도 카테고리로 정착
  3. 장문 컨텍스트 경쟁: 128K → 1M → 10M tokens로 급속 확장
  4. MLA (Multi-head Latent Attention): DeepSeek이 도입한 KV cache 효율화 기법, 후속 모델에 영향
  5. Thinking Mode 보편화: Qwen3, Claude, Gemini 등 “내부 추론” 모드가 표준 기능화
  6. 오픈소스 가속: Meta, DeepSeek, Alibaba의 경쟁으로 오픈 모델 성능이 closed 모델에 근접

마지막 업데이트: 2026-03-10