Frontier LLM 모델 정리 (2026년 3월 기준)

문서 목적

주요 LLM 모델들의 아키텍처, 파라미터 규모, 접근 방식을 연구 관점에서 정리한다.
API-only 모델은 블랙박스 실험(프롬프팅, 행동 분석)에 적합하고,
Open-weight 모델은 내부 representation 분석, 파인튜닝, mechanistic interpretability 연구에 활용 가능하다.

정확도 주의

Closed-source 모델의 파라미터 수, 레이어 수 등은 공식 미공개 사항이 많으며, 유출/추정치를 포함한다.
추정치는 ~ 또는 (추정) 표기를 사용한다. Open-weight 모델은 공식 수치 기반이다.

분류 기준

구분	설명	연구 활용
API-only (Closed)	가중치 비공개, API로만 접근	프롬프팅, 행동 실험, benchmark 평가
Open-weight	가중치 공개, 라이선스 조건부	파인튜닝, probing, activation 분석, SAE 등
Open-source	가중치 + 학습 코드/데이터 공개	재현 연구, 학습 dynamics 분석

1. OpenAI

GPT-5 (2025.08 출시)

파라미터: 비공개 (~600B 추정, MoE)
아키텍처: MoE (Mixture of Experts), 활성 파라미터 ~200B 추정
컨텍스트 윈도우: 256K tokens
멀티모달: 텍스트, 이미지, 오디오 입출력
API 가격: $15/1 M in p u tt o k e n s,$ 60 / 1M output tokens (추정)
오픈소스: ❌ Closed
연구 활용: API 호출, 행동 분석, 벤치마크 비교

GPT-5.2 (2026.01 출시)

파라미터: 비공개 (~800B 추정, MoE)
아키텍처: MoE, 활성 파라미터 ~250B 추정
컨텍스트 윈도우: 256K tokens
주요 개선: 추론 성능 향상, 코딩 능력 강화
API 가격: $20/1 M in p u t,$ 80 / 1M output (추정)
오픈소스: ❌ Closed
연구 활용: API 호출 전용

o3 (2025.04 출시)

파라미터: 비공개
아키텍처: Chain-of-Thought 내재화 모델 (추론 특화)
컨텍스트 윈도우: 200K tokens
특징: 내부 reasoning chain, 수학/코딩/과학 추론 특화
API 가격: 추론 시간에 따라 가변 (compute-based pricing)
오픈소스: ❌ Closed
연구 활용: 추론 행동 분석, CoT 패턴 연구

o4-mini (2025.04 출시)

파라미터: 비공개
아키텍처: 경량 reasoning 모델
컨텍스트 윈도우: 200K tokens
특징: o3 대비 빠르고 저렴, 일상 추론 최적화
API 가격: o3 대비 ~80% 저렴
오픈소스: ❌ Closed
연구 활용: 비용 효율적 추론 실험

GPT-OSS-120B (2025.12 추정 출시)

파라미터: 120B (Dense 추정)
아키텍처: Dense Transformer
컨텍스트 윈도우: 128K tokens (추정)
특징: OpenAI 최초 오픈소스 모델, Llama 대항마
오픈소스: ✅ 오픈웨이트 (라이선스 조건 미확정)
연구 활용: 파인튜닝, 내부 분석 가능 (출시 후 확인 필요)

2. Anthropic (Claude)

Claude Opus 4.6 (2025.12 출시)

파라미터: 비공개 (~500B 추정)
아키텍처: Dense Transformer (추정), 레이어 수 비공개
컨텍스트 윈도우: 200K tokens
특징: 최고 성능 모델, 복잡한 코딩/분석/장문 작성
API 가격: $15/1 M in p u t,$ 75 / 1M output
오픈소스: ❌ Closed
연구 활용: API 호출, 행동 분석, Constitutional AI 연구 맥락

Claude Sonnet 4.6 (2025.12 출시)

파라미터: 비공개 (~150B 추정)
아키텍처: Dense Transformer (추정)
컨텍스트 윈도우: 200K tokens
특징: 성능/비용 균형, 일상적 코딩 및 분석에 최적
API 가격: $3/1 M in p u t,$ 15 / 1M output
오픈소스: ❌ Closed
연구 활용: API 호출, 비용 효율적 대규모 실험

Claude Haiku 4.5 (2025.10 출시)

파라미터: 비공개 (~30B 추정)
아키텍처: Dense Transformer (추정)
컨텍스트 윈도우: 200K tokens
특징: 경량 모델, 빠른 응답, 분류/추출 작업 최적
API 가격: $0.80/1 M in p u t,$ 4 / 1M output
오픈소스: ❌ Closed
연구 활용: 대규모 배치 실험, 저비용 데이터 처리

Anthropic 연구 특이사항

Anthropic은 interpretability 연구(Sparse Autoencoder, feature visualization)를 자체 수행하며 논문을 공개하지만, 모델 가중치는 비공개. 외부 연구자는 API 기반 행동 실험만 가능.

3. Google (Gemini)

Gemini 3 Pro (2026.02 출시)

파라미터: 비공개 (MoE 추정)
아키텍처: MoE Transformer, 멀티모달 네이티브
컨텍스트 윈도우: 2M tokens
특징: 초장문 컨텍스트, 멀티모달(텍스트/이미지/비디오/오디오/코드)
API 가격: $7/1 M in p u t,$ 21 / 1M output (추정)
오픈소스: ❌ Closed
연구 활용: 장문 분석 실험, 멀티모달 연구

Gemini 3 Flash (2026.02 출시)

파라미터: 비공개
아키텍처: MoE (경량), 멀티모달
컨텍스트 윈도우: 1M tokens
특징: Flash 라인업 후속, 속도/비용 최적화
API 가격: $0.15/1 M in p u t,$ 0.60 / 1M output (추정)
오픈소스: ❌ Closed
연구 활용: 대규모 배치 실험, 비용 효율적 멀티모달

Gemini 2.5 Pro (2025.03 출시)

파라미터: 비공개 (MoE 추정)
아키텍처: MoE Transformer
컨텍스트 윈도우: 1M tokens
특징: Thinking 모드 지원, 추론 능력 강화
API 가격: $1.25/1 M in p u t (\leq 200 K),$ 10 / 1M output
오픈소스: ❌ Closed
연구 활용: 추론 실험, 장문 분석

4. Meta (Llama)

Llama 4 Scout (2025.04 출시)

파라미터: 109B total (17B active)
아키텍처: MoE, 16 experts, Top-1 routing
레이어 수: 60 Transformer layers
Attention: Grouped Query Attention (GQA)
컨텍스트 윈도우: 10M tokens (industry 최대급)
멀티모달: 텍스트 + 이미지 입력
오픈소스: ✅ Llama License (상업적 사용 가능, 월 7억 MAU 이상 별도 허가)
연구 활용: 파인튜닝, probing, activation 분석, MoE routing 연구

Llama 4 Maverick (2025.04 출시)

파라미터: 400B total (17B active)
아키텍처: MoE, 128 experts, Top-1 routing
레이어 수: 92 Transformer layers
Attention: GQA
컨텍스트 윈도우: 1M tokens
멀티모달: 텍스트 + 이미지 입력
오픈소스: ✅ Llama License
연구 활용: 대규모 MoE 내부 분석, expert specialization 연구

Llama 4 Behemoth (2025 후반 예정)

파라미터: ~2T total (288B active, 추정)
아키텍처: MoE, 대규모 expert 수 (추정 256+)
특징: 교사(teacher) 모델, Scout/Maverick 증류 소스
오픈소스: ✅ 예정 (Llama License)
연구 활용: 모델 증류 연구, 대규모 MoE 분석

5. DeepSeek

DeepSeek-V3 (2024.12 출시)

파라미터: 671B total (37B active)
아키텍처: MoE, 256 experts + 1 shared expert, Top-8 routing
레이어 수: 61 Transformer layers
Attention: Multi-head Latent Attention (MLA)
컨텍스트 윈도우: 128K tokens
학습 비용: ~$5.6M (H800 GPU 2048개, 2개월)
오픈소스: ✅ MIT License
연구 활용: 완전 오픈소스, 학습 코드 포함, MLA/MoE 아키텍처 연구, 내부 레이어 분석

DeepSeek-V3.1 (2025.06 추정)

파라미터: 671B total (37B active) — V3 기반 개선
아키텍처: V3와 동일 구조, 학습 데이터/기법 개선
컨텍스트 윈도우: 128K tokens
오픈소스: ✅ MIT License
연구 활용: V3와 동일 수준의 내부 접근 가능

DeepSeek-V3.2 (2025.12 추정)

파라미터: 비공개 (V3 대비 확장 추정)
아키텍처: MoE + MLA 계열 (개선)
컨텍스트 윈도우: 128K+ tokens
오픈소스: ✅ MIT License (예상)
연구 활용: 최신 MoE 연구 기반

DeepSeek-R1 (2025.01 출시)

파라미터: 671B total (37B active) — V3 기반
아키텍처: V3 + RL-based reasoning (GRPO)
컨텍스트 윈도우: 128K tokens
특징: Chain-of-Thought 추론 특화, RL로 reasoning 학습
오픈소스: ✅ MIT License
Distill 모델: R1-Distill-Qwen-32B, R1-Distill-Llama-70B 등 다수 공개
연구 활용: RL reasoning 연구, CoT 내부 분석, 증류 효과 연구

DeepSeek-R2 (2026 상반기 예정)

파라미터: 미공개
아키텍처: 차세대 reasoning 모델 (예상)
특징: R1 후속, 향상된 추론 및 코딩 능력 예상
오픈소스: ✅ 예상 (MIT License)
연구 활용: 출시 후 확인

DeepSeek 연구 가치

DeepSeek은 MIT License로 학습 코드까지 공개하여 재현 연구에 가장 적합하다.
MLA (Multi-head Latent Attention)는 KV cache를 크게 줄이는 독자 아키텍처로, attention 메커니즘 연구에 핵심 자료.

6. Qwen (Alibaba)

Qwen3 (2025.04 출시)

파라미터: 다양한 크기 제공
- Qwen3-235B-A22B: 235B total, 22B active (MoE)
- Qwen3-32B: 32B (Dense)
- Qwen3-30B-A3B: 30B total, 3B active (MoE)
- Qwen3-14B / 8B / 4B / 1.7B / 0.6B (Dense)
아키텍처:
- MoE 모델: 128 experts (235B), 128 experts (30B), Top-K routing
- Dense 모델: Standard Transformer
- 모든 모델에 Thinking Mode (내부 추론) 지원
Attention: GQA (Grouped Query Attention)
컨텍스트 윈도우: 128K tokens (YaRN 확장으로 최대 256K)
오픈소스: ✅ Apache 2.0 License
연구 활용: 다양한 크기로 스케일링 법칙 연구, 파인튜닝, probing, thinking mode 분석

Qwen3-Next (2025 하반기~2026 예상)

파라미터: 미공개 (Qwen3 대비 확장 예상)
아키텍처: 차세대 Qwen 시리즈
오픈소스: ✅ 예상 (Apache 2.0)
연구 활용: 출시 후 확인

Qwen3.5 (2026 예정)

파라미터: 미공개
아키텍처: Qwen 계열 진화 (예상)
오픈소스: ✅ 예상 (Apache 2.0)
연구 활용: 출시 후 확인

Qwen 연구 가치

Apache 2.0 라이선스로 가장 자유로운 사용 가능. Dense (0.6B~~32B)와 MoE (30B~~235B) 모두 제공하여 모델 크기별 비교 연구에 이상적.

7. Mistral

Mistral Large 3 (2025.03 출시)

파라미터: ~123B (Dense 추정)
아키텍처: Dense Transformer
레이어 수: 88 layers (추정)
Attention: GQA
컨텍스트 윈도우: 128K tokens
특징: Mistral 플래그십 모델, 다국어 강점
오픈소스: ✅ Mistral License (연구 및 상업적 사용 가능)
연구 활용: 파인튜닝, 내부 분석, 다국어 모델 연구

Codestral (2025.01 출시)

파라미터: ~22B (추정)
아키텍처: Dense Transformer, 코드 특화
컨텍스트 윈도우: 256K tokens
특징: 코드 생성/이해 특화, FIM (Fill-in-the-Middle) 지원
오픈소스: ✅ Non-production License (연구용 무료)
연구 활용: 코드 모델 내부 분석, FIM 메커니즘 연구

Devstral (2025.05 출시)

파라미터: ~24B (추정)
아키텍처: Dense Transformer, 에이전트 코딩 특화
컨텍스트 윈도우: 128K tokens
특징: 코드 에이전트 최적화, SWE-bench 고성능
오픈소스: ✅ Apache 2.0 License
연구 활용: 코드 에이전트 행동 분석, 파인튜닝

모델 비교 표

Closed-Source 모델 비교

모델	회사	파라미터 (추정)	아키텍처	컨텍스트	Input 가격 (/1M)	Output 가격 (/1M)
GPT-5.2	OpenAI	~800B (MoE)	MoE	256K	~$20	~$80
GPT-5	OpenAI	~600B (MoE)	MoE	256K	~$15	~$60
o3	OpenAI	비공개	Reasoning	200K	가변	가변
o4-mini	OpenAI	비공개	Reasoning (경량)	200K	저가	저가
Opus 4.6	Anthropic	~500B (추정)	Dense	200K	$15	$75
Sonnet 4.6	Anthropic	~150B (추정)	Dense	200K	$3	$15
Haiku 4.5	Anthropic	~30B (추정)	Dense	200K	$0.80	$4
Gemini 3 Pro	Google	비공개 (MoE)	MoE	2M	~$7	~$21
Gemini 3 Flash	Google	비공개 (MoE)	MoE	1M	~$0.15	~$0.60
Gemini 2.5 Pro	Google	비공개 (MoE)	MoE	1M	$1.25	$10

Open-Weight 모델 비교

모델	회사	파라미터 (total/active)	아키텍처	레이어	컨텍스트	라이선스
Llama 4 Behemoth	Meta	~2T / 288B	MoE	미공개	미공개	Llama
Llama 4 Maverick	Meta	400B / 17B	MoE 128E	92	1M	Llama
Llama 4 Scout	Meta	109B / 17B	MoE 16E	60	10M	Llama
DeepSeek-V3	DeepSeek	671B / 37B	MoE 256E + MLA	61	128K	MIT
DeepSeek-R1	DeepSeek	671B / 37B	MoE + GRPO	61	128K	MIT
Qwen3-235B	Alibaba	235B / 22B	MoE 128E	미공개	128K	Apache 2.0
Qwen3-32B	Alibaba	32B (Dense)	Dense	미공개	128K	Apache 2.0
Mistral Large 3	Mistral	~123B (Dense)	Dense	~88	128K	Mistral
Codestral	Mistral	~22B	Dense	미공개	256K	Non-prod
Devstral	Mistral	~24B	Dense	미공개	128K	Apache 2.0
GPT-OSS-120B	OpenAI	120B (Dense)	Dense	미공개	128K	미확정

연구 활용 가이드

API-only 연구 (Closed 모델)

적합한 연구: 벤치마크 평가, 프롬프트 엔지니어링, 행동 분석, 인지 실험
도구: OpenAI API, Anthropic API, Google AI Studio
한계: 내부 representation 접근 불가, 재현성 제한 (모델 업데이트 시 변동)

Open-weight 연구

적합한 연구: 파인튜닝, LoRA, probing classifiers, activation patching, SAE 분석
추천 모델:
- 내부 분석: DeepSeek-V3 (MIT, 학습 코드 공개), Qwen3 시리즈 (Apache 2.0)
- MoE 연구: Llama 4 Scout/Maverick, DeepSeek-V3
- 스케일링 연구: Qwen3 (0.6B~235B 풀 라인업)
- 코드 모델: Devstral (Apache 2.0), Codestral
인프라: H100/A100 GPU 클러스터, vLLM/TGI 서빙

라이선스 비교

라이선스	상업적 사용	수정/재배포	대표 모델
MIT	✅ 자유	✅ 자유	DeepSeek 전 모델
Apache 2.0	✅ 자유	✅ 자유	Qwen3, Devstral
Llama License	✅ (MAU 제한)	✅ (조건부)	Llama 4 시리즈
Mistral License	✅	✅ (조건부)	Mistral Large 3
Non-production	❌	✅ (연구만)	Codestral

주요 아키텍처 트렌드 (2025-2026)

MoE 지배: 대부분의 frontier 모델이 MoE 채택 → 학습/추론 효율성
Reasoning 모델 분화: o3, R1 등 추론 특화 모델이 별도 카테고리로 정착
장문 컨텍스트 경쟁: 128K → 1M → 10M tokens로 급속 확장
MLA (Multi-head Latent Attention): DeepSeek이 도입한 KV cache 효율화 기법, 후속 모델에 영향
Thinking Mode 보편화: Qwen3, Claude, Gemini 등 “내부 추론” 모드가 표준 기능화
오픈소스 가속: Meta, DeepSeek, Alibaba의 경쟁으로 오픈 모델 성능이 closed 모델에 근접

마지막 업데이트: 2026-03-10

frontier-model

Frontier LLM 모델 정리 (2026년 3월 기준)

분류 기준

1. OpenAI

GPT-5 (2025.08 출시)

GPT-5.2 (2026.01 출시)

o3 (2025.04 출시)

o4-mini (2025.04 출시)

GPT-OSS-120B (2025.12 추정 출시)

2. Anthropic (Claude)

Claude Opus 4.6 (2025.12 출시)

Claude Sonnet 4.6 (2025.12 출시)

Claude Haiku 4.5 (2025.10 출시)

3. Google (Gemini)

Gemini 3 Pro (2026.02 출시)

Gemini 3 Flash (2026.02 출시)

Gemini 2.5 Pro (2025.03 출시)

4. Meta (Llama)

Llama 4 Scout (2025.04 출시)

Llama 4 Maverick (2025.04 출시)

Llama 4 Behemoth (2025 후반 예정)

5. DeepSeek

DeepSeek-V3 (2024.12 출시)

DeepSeek-V3.1 (2025.06 추정)

DeepSeek-V3.2 (2025.12 추정)

DeepSeek-R1 (2025.01 출시)

DeepSeek-R2 (2026 상반기 예정)

6. Qwen (Alibaba)

Qwen3 (2025.04 출시)

Qwen3-Next (2025 하반기~2026 예상)

Qwen3.5 (2026 예정)

7. Mistral

Mistral Large 3 (2025.03 출시)

Codestral (2025.01 출시)

Devstral (2025.05 출시)

모델 비교 표

Closed-Source 모델 비교

Open-Weight 모델 비교

연구 활용 가이드

API-only 연구 (Closed 모델)

Open-weight 연구

라이선스 비교

주요 아키텍처 트렌드 (2025-2026)

그래프 뷰

목차

Properties

백링크