Digest: Anthropic의 Claude 시리즈는 **Constitutional AI(RLAIF)**를 기반으로 안전성과 성능의 균형을 추구하는 LLM 패밀리이다. Claude 3(2024.03)에서 Opus/Sonnet/Haiku 3단계 구성을 도입하고, Claude 3.5 Sonnet(2024.06/10)에서 Opus 가격으로 Opus를 능가하는 성능을 달성했으며, Claude 4(2025)에서 Extended Thinking(128K 토큰), 에이전트 코딩(SWE-bench 72.5%), Computer Use 기능으로 한 단계 더 진화했다.
Claude 3 (2024.03)
Digest: Claude 3는 Anthropic이 2024년 3월 발표한 모델 패밀리로, Opus(최고 성능) / Sonnet(균형) / Haiku(빠르고 저렴) 3단계 구성이다. Claude 3 Opus는 MMLU 86.8, HumanEval 84.9로 발표 당시 GPT-4에 필적하거나 능가하는 성능을 보였다. 200K 컨텍스트 윈도우, 비전(이미지 입력) 지원, Constitutional AI 기반 안전성 정렬이 핵심 특징이다. 아키텍처와 학습 상세는 미공개이며, “Helpful, Harmless, Honest”를 기본 원칙으로 설계되었다.
모델 패밀리
모델
용도
속도
Context
비전
비용 (입력/출력, /1M tokens)
Claude 3 Opus
복잡한 추론, 전문가 태스크
느림
200K
✅
15/75
Claude 3 Sonnet
범용, 코딩, 분석
중간
200K
✅
3/15
Claude 3 Haiku
빠른 응답, 대량 처리
빠름
200K
✅
0.25/1.25
알려진 스펙
항목
값
아키텍처
미공개 (Transformer decoder-only 추정)
파라미터
미공개
Context
200K tokens
입력
텍스트 + 이미지
출력
텍스트
학습 방법
Constitutional AI (RLAIF) + RLHF
Knowledge Cutoff
2023년 8월
Constitutional AI
graph TD
A["사전학습 모델"] --> B["SFT<br/>(도움이 되는 응답 학습)"]
B --> C["Constitutional AI"]
subgraph CAI["Constitutional AI (RLAIF)"]
C1["모델이 응답 생성"] --> C2["헌법 원칙으로<br/>자기 비판"]
C2 --> C3["수정된 응답 생성"]
C3 --> C4["AI 피드백으로<br/>Preference Model 학습"]
C4 --> C5["RL로 정렬"]
end
C --> D["Claude 3"]
벤치마크 비교
텍스트 벤치마크
벤치마크
Claude 3 Opus
Claude 3 Sonnet
Claude 3 Haiku
GPT-4 (0125)
Gemini 1.0 Ultra
MMLU (5-shot)
86.8
79.0
75.2
86.4
83.7
GPQA (0-shot)
50.4
40.4
33.3
—
—
GSM8K (0-shot, CoT)
95.0
92.3
88.9
92.0
94.4
MATH (0-shot, CoT)
60.1
43.1
38.9
52.9
53.2
HumanEval (0-shot)
84.9
73.0
75.9
67.0
74.4
MGSM (8-shot)
90.7
83.5
75.1
85.0
—
BIG-Bench-Hard (3-shot)
86.8
82.9
73.7
—
83.6
비전 벤치마크
벤치마크
Claude 3 Opus
GPT-4V
MMMU
59.4
56.8
MathVista
50.5
49.9
AI2D
88.1
78.2
ChartQA
—
—
DocVQA
89.3
—
Long Context (Needle-in-a-Haystack)
Context
Opus
Sonnet
Haiku
200K
~99%
~98%
~97%
안전성
핵심 원칙: HHH
Helpful: 사용자에게 유용한 응답
Harmless: 해로운 결과 최소화
Honest: 불확실성 인정, 사실 기반
안전성 평가
지표
Claude 3 Opus
GPT-4
유해 요청 거부율
높음
높음
TruthfulQA
개선됨
—
Bias 벤치마크
BBQ 등 평가
—
Overrefusal
이전 버전 대비 감소
—
동시대 비교 매트릭스
특성
Claude 3 Opus (2024.03)
GPT-4 Turbo (2024.01)
Gemini 1.0 Ultra (2023.12)
LLaMA 3-70B (2024.04)
파라미터
미공개
미공개
미공개
70B
Context
200K
128K
32K
8K
비전
✅
✅
✅
❌
MMLU
86.8
86.4
83.7
79.5
HumanEval
84.9
67.0
74.4
81.7
안전성 정렬
Constitutional AI
RLHF
Google AI Principles
SFT+RLHF
오픈소스
❌
❌
❌
✅
핵심 기여
안전성+성능 균형
범용 최강
MMLU 90
오픈소스
Claude 3.5 Sonnet & Claude 4 (2024-2025)
Digest: Claude 3.5 Sonnet(2024.06/10)은 Claude 3 Opus를 능가하면서 Sonnet 가격/속도를 유지한 획기적 모델로, 특히 코딩(HumanEval 93.7%)과 추론에서 GPT-4o에 필적하거나 능가했다. 이후 **Claude 4 Sonnet/Opus(2025)**는 확장 사고(Extended Thinking), 에이전트 코딩, 컴퓨터 사용(Computer Use) 기능을 도입하며 한 단계 더 진화했다. Claude 4 Opus는 SWE-bench Verified 72.5%로 최고 성능을 기록하며, 200K 컨텍스트 + 128K 확장 사고 토큰을 지원한다.
모델 진화
Claude 3.5 Sonnet (2024)
항목
Claude 3.5 Sonnet (June)
Claude 3.5 Sonnet (Oct, “new”)
출시
2024년 6월
2024년 10월
Context
200K
200K
비전
✅
✅
Computer Use
❌
✅ (beta)
MMLU
88.7
88.7
HumanEval
92.0
93.7
MATH
—
78.3
가격
3/15 per 1M tokens
동일
Claude 4 시리즈 (2025)
모델
용도
특징
Context
Claude 4 Opus
최고 성능, 에이전트, 깊은 추론
Extended Thinking (128K), 에이전트 코딩
200K
Claude 4 Sonnet
범용 균형
Extended Thinking, 빠른 속도
200K
Claude 3.5 Haiku
빠른 응답, 대량 처리
코딩 능력 향상
200K
핵심 기능
Extended Thinking (확장 사고)
graph TD
A["사용자 질문"] --> B["내부 추론 체인<br/>(최대 128K 토큰)"]
B --> C["단계별 논리적 사고"]
C --> D["최종 답변"]
style B fill:#e8f5e9