Claude Models

Digest: Anthropic의 Claude 시리즈는 **Constitutional AI(RLAIF)**를 기반으로 안전성과 성능의 균형을 추구하는 LLM 패밀리이다. Claude 3(2024.03)에서 Opus/Sonnet/Haiku 3단계 구성을 도입하고, Claude 3.5 Sonnet(2024.06/10)에서 Opus 가격으로 Opus를 능가하는 성능을 달성했으며, Claude 4(2025)에서 Extended Thinking(128K 토큰), 에이전트 코딩(SWE-bench 72.5%), Computer Use 기능으로 한 단계 더 진화했다.

Claude 3 (2024.03)

Digest: Claude 3는 Anthropic이 2024년 3월 발표한 모델 패밀리로, Opus(최고 성능) / Sonnet(균형) / Haiku(빠르고 저렴) 3단계 구성이다. Claude 3 Opus는 MMLU 86.8, HumanEval 84.9로 발표 당시 GPT-4에 필적하거나 능가하는 성능을 보였다. 200K 컨텍스트 윈도우, 비전(이미지 입력) 지원, Constitutional AI 기반 안전성 정렬이 핵심 특징이다. 아키텍처와 학습 상세는 미공개이며, “Helpful, Harmless, Honest”를 기본 원칙으로 설계되었다.

모델 패밀리

모델	용도	속도	Context	비전	비용 (입력/출력, /1M tokens)
Claude 3 Opus	복잡한 추론, 전문가 태스크	느림	200K	✅	$15/$ 75
Claude 3 Sonnet	범용, 코딩, 분석	중간	200K	✅	$3/$ 15
Claude 3 Haiku	빠른 응답, 대량 처리	빠름	200K	✅	$0.25/$ 1.25

알려진 스펙

항목	값
아키텍처	미공개 (Transformer decoder-only 추정)
파라미터	미공개
Context	200K tokens
입력	텍스트 + 이미지
출력	텍스트
학습 방법	Constitutional AI (RLAIF) + RLHF
Knowledge Cutoff	2023년 8월

Constitutional AI

graph TD
    A["사전학습 모델"] --> B["SFT<br/>(도움이 되는 응답 학습)"]
    B --> C["Constitutional AI"]

    subgraph CAI["Constitutional AI (RLAIF)"]
        C1["모델이 응답 생성"] --> C2["헌법 원칙으로<br/>자기 비판"]
        C2 --> C3["수정된 응답 생성"]
        C3 --> C4["AI 피드백으로<br/>Preference Model 학습"]
        C4 --> C5["RL로 정렬"]
    end

    C --> D["Claude 3"]

벤치마크 비교

텍스트 벤치마크

벤치마크	Claude 3 Opus	Claude 3 Sonnet	Claude 3 Haiku	GPT-4 (0125)	Gemini 1.0 Ultra
MMLU (5-shot)	86.8	79.0	75.2	86.4	83.7
GPQA (0-shot)	50.4	40.4	33.3	—	—
GSM8K (0-shot, CoT)	95.0	92.3	88.9	92.0	94.4
MATH (0-shot, CoT)	60.1	43.1	38.9	52.9	53.2
HumanEval (0-shot)	84.9	73.0	75.9	67.0	74.4
MGSM (8-shot)	90.7	83.5	75.1	85.0	—
BIG-Bench-Hard (3-shot)	86.8	82.9	73.7	—	83.6

비전 벤치마크

벤치마크	Claude 3 Opus	GPT-4V
MMMU	59.4	56.8
MathVista	50.5	49.9
AI2D	88.1	78.2
ChartQA	—	—
DocVQA	89.3	—

Long Context (Needle-in-a-Haystack)

Context	Opus	Sonnet	Haiku
200K	~99%	~98%	~97%

안전성

핵심 원칙: HHH

Helpful: 사용자에게 유용한 응답
Harmless: 해로운 결과 최소화
Honest: 불확실성 인정, 사실 기반

안전성 평가

지표	Claude 3 Opus	GPT-4
유해 요청 거부율	높음	높음
TruthfulQA	개선됨	—
Bias 벤치마크	BBQ 등 평가	—
Overrefusal	이전 버전 대비 감소	—

동시대 비교 매트릭스

특성	Claude 3 Opus (2024.03)	GPT-4 Turbo (2024.01)	Gemini 1.0 Ultra (2023.12)	LLaMA 3-70B (2024.04)
파라미터	미공개	미공개	미공개	70B
Context	200K	128K	32K	8K
비전	✅	✅	✅	❌
MMLU	86.8	86.4	83.7	79.5
HumanEval	84.9	67.0	74.4	81.7
안전성 정렬	Constitutional AI	RLHF	Google AI Principles	SFT+RLHF
오픈소스	❌	❌	❌	✅
핵심 기여	안전성+성능 균형	범용 최강	MMLU 90	오픈소스

Claude 3.5 Sonnet & Claude 4 (2024-2025)

Digest: Claude 3.5 Sonnet(2024.06/10)은 Claude 3 Opus를 능가하면서 Sonnet 가격/속도를 유지한 획기적 모델로, 특히 코딩(HumanEval 93.7%)과 추론에서 GPT-4o에 필적하거나 능가했다. 이후 **Claude 4 Sonnet/Opus(2025)**는 확장 사고(Extended Thinking), 에이전트 코딩, 컴퓨터 사용(Computer Use) 기능을 도입하며 한 단계 더 진화했다. Claude 4 Opus는 SWE-bench Verified 72.5%로 최고 성능을 기록하며, 200K 컨텍스트 + 128K 확장 사고 토큰을 지원한다.

모델 진화

Claude 3.5 Sonnet (2024)

항목	Claude 3.5 Sonnet (June)	Claude 3.5 Sonnet (Oct, “new”)
출시	2024년 6월	2024년 10월
Context	200K	200K
비전	✅	✅
Computer Use	❌	✅ (beta)
MMLU	88.7	88.7
HumanEval	92.0	93.7
MATH	—	78.3
가격	$3/$ 15 per 1M tokens	동일

Claude 4 시리즈 (2025)

모델	용도	특징	Context
Claude 4 Opus	최고 성능, 에이전트, 깊은 추론	Extended Thinking (128K), 에이전트 코딩	200K
Claude 4 Sonnet	범용 균형	Extended Thinking, 빠른 속도	200K
Claude 3.5 Haiku	빠른 응답, 대량 처리	코딩 능력 향상	200K

핵심 기능

Extended Thinking (확장 사고)

graph TD
    A["사용자 질문"] --> B["내부 추론 체인<br/>(최대 128K 토큰)"]
    B --> C["단계별 논리적 사고"]
    C --> D["최종 답변"]

    style B fill:#e8f5e9

최대 128K 토큰의 내부 추론 (사용자에게 thinking 블록으로 노출)
복잡한 수학, 코딩, 분석 태스크에서 성능 대폭 향상
budget_tokens 파라미터로 추론 예산 제어 가능

Computer Use

항목	설명
기능	스크린샷 관찰 → 마우스/키보드 조작
지원	데스크톱 환경 제어
용도	자동화, 테스트, 데이터 입력

에이전트 코딩 (Claude Code)

항목	설명
SWE-bench Verified	Claude 4 Opus: 72.5% (최고)
능력	코드베이스 탐색, 파일 편집, 테스트 실행, Git 관리
터미널 CLI	Claude Code로 직접 터미널에서 사용

벤치마크 비교

텍스트 벤치마크

벤치마크	Claude 4 Opus	Claude 4 Sonnet	Claude 3.5 Sonnet (Oct)	GPT-4o	Gemini 1.5 Pro
MMLU (5-shot)	—	—	88.7	88.7	85.9
GPQA Diamond	73.7 (ext. thinking)	68.6	65.0	53.6	—
MATH (0-shot)	—	—	78.3	76.6	67.7
HumanEval (0-shot)	—	—	93.7	90.2	71.9
SWE-bench Verified	72.5	70.3	50.8	38.4	—
AIME 2024	83.3 (ext. thinking)	80.0	—	9.3	—
LiveCodeBench	높음	높음	38.9	33.4	—

Extended Thinking 효과

벤치마크	기본	Extended Thinking
GPQA Diamond	~60%	73.7%
AIME 2024	~30%	83.3%
MATH-500	~80%	~96%
SWE-bench	~55%	72.5%

안전성

항목	설명
정렬 방법	Constitutional AI (RLAIF) + RLHF
Responsible Scaling	ASL-3 수준 평가
Overrefusal 감소	Claude 3 대비 overrefusal 크게 감소
긴 컨텍스트 안전성	Many-shot jailbreak 대응

동시대 비교 매트릭스

특성	Claude 4 Opus (2025.05)	GPT-4o (2024.05)	Gemini 2.5 Pro	DeepSeek-R1
Extended Thinking	✅ (128K)	❌	✅	✅ (CoT)
Computer Use	✅	❌	❌	❌
에이전트 코딩	SWE-bench 72.5%	38.4%	—	—
Context	200K	128K	1M	128K
오디오	❌	✅	✅	❌
비전	✅	✅	✅	❌
오픈소스	❌	❌	❌	✅
핵심 기여	에이전트+안전성	네이티브 멀티모달	장문맥 추론	오픈 추론

한계

아키텍처 미공개: 완전 비공개
Extended Thinking 비용: 긴 추론 체인의 추가 토큰 비용
오디오 미지원: 텍스트+이미지만 (오디오 입력 없음)
Hallucination: 개선되었으나 완전 해결은 아님

Juhyeon's Blog

탐색기

Claude Models

Claude Models

Claude 3 (2024.03)

모델 패밀리

알려진 스펙

Constitutional AI

벤치마크 비교

텍스트 벤치마크

비전 벤치마크

Long Context (Needle-in-a-Haystack)

안전성

핵심 원칙: HHH

안전성 평가

동시대 비교 매트릭스

Claude 3.5 Sonnet & Claude 4 (2024-2025)

모델 진화

Claude 3.5 Sonnet (2024)

Claude 4 시리즈 (2025)

핵심 기능

Extended Thinking (확장 사고)

Computer Use

에이전트 코딩 (Claude Code)

벤치마크 비교

텍스트 벤치마크

Extended Thinking 효과

안전성

동시대 비교 매트릭스

한계

그래프 뷰

목차

Properties

백링크