Claude Models

Digest: Anthropic의 Claude 시리즈는 **Constitutional AI(RLAIF)**를 기반으로 안전성과 성능의 균형을 추구하는 LLM 패밀리이다. Claude 3(2024.03)에서 Opus/Sonnet/Haiku 3단계 구성을 도입하고, Claude 3.5 Sonnet(2024.06/10)에서 Opus 가격으로 Opus를 능가하는 성능을 달성했으며, Claude 4(2025)에서 Extended Thinking(128K 토큰), 에이전트 코딩(SWE-bench 72.5%), Computer Use 기능으로 한 단계 더 진화했다.


Claude 3 (2024.03)

Digest: Claude 3는 Anthropic이 2024년 3월 발표한 모델 패밀리로, Opus(최고 성능) / Sonnet(균형) / Haiku(빠르고 저렴) 3단계 구성이다. Claude 3 Opus는 MMLU 86.8, HumanEval 84.9로 발표 당시 GPT-4에 필적하거나 능가하는 성능을 보였다. 200K 컨텍스트 윈도우, 비전(이미지 입력) 지원, Constitutional AI 기반 안전성 정렬이 핵심 특징이다. 아키텍처와 학습 상세는 미공개이며, “Helpful, Harmless, Honest”를 기본 원칙으로 설계되었다.


모델 패밀리

모델용도속도Context비전비용 (입력/출력, /1M tokens)
Claude 3 Opus복잡한 추론, 전문가 태스크느림200K75
Claude 3 Sonnet범용, 코딩, 분석중간200K15
Claude 3 Haiku빠른 응답, 대량 처리빠름200K1.25

알려진 스펙

항목
아키텍처미공개 (Transformer decoder-only 추정)
파라미터미공개
Context200K tokens
입력텍스트 + 이미지
출력텍스트
학습 방법Constitutional AI (RLAIF) + RLHF
Knowledge Cutoff2023년 8월

Constitutional AI

graph TD
    A["사전학습 모델"] --> B["SFT<br/>(도움이 되는 응답 학습)"]
    B --> C["Constitutional AI"]

    subgraph CAI["Constitutional AI (RLAIF)"]
        C1["모델이 응답 생성"] --> C2["헌법 원칙으로<br/>자기 비판"]
        C2 --> C3["수정된 응답 생성"]
        C3 --> C4["AI 피드백으로<br/>Preference Model 학습"]
        C4 --> C5["RL로 정렬"]
    end

    C --> D["Claude 3"]

벤치마크 비교

텍스트 벤치마크

벤치마크Claude 3 OpusClaude 3 SonnetClaude 3 HaikuGPT-4 (0125)Gemini 1.0 Ultra
MMLU (5-shot)86.879.075.286.483.7
GPQA (0-shot)50.440.433.3
GSM8K (0-shot, CoT)95.092.388.992.094.4
MATH (0-shot, CoT)60.143.138.952.953.2
HumanEval (0-shot)84.973.075.967.074.4
MGSM (8-shot)90.783.575.185.0
BIG-Bench-Hard (3-shot)86.882.973.783.6

비전 벤치마크

벤치마크Claude 3 OpusGPT-4V
MMMU59.456.8
MathVista50.549.9
AI2D88.178.2
ChartQA
DocVQA89.3

Long Context (Needle-in-a-Haystack)

ContextOpusSonnetHaiku
200K~99%~98%~97%

안전성

핵심 원칙: HHH

  1. Helpful: 사용자에게 유용한 응답
  2. Harmless: 해로운 결과 최소화
  3. Honest: 불확실성 인정, 사실 기반

안전성 평가

지표Claude 3 OpusGPT-4
유해 요청 거부율높음높음
TruthfulQA개선됨
Bias 벤치마크BBQ 등 평가
Overrefusal이전 버전 대비 감소

동시대 비교 매트릭스

특성Claude 3 Opus (2024.03)GPT-4 Turbo (2024.01)Gemini 1.0 Ultra (2023.12)LLaMA 3-70B (2024.04)
파라미터미공개미공개미공개70B
Context200K128K32K8K
비전
MMLU86.886.483.779.5
HumanEval84.967.074.481.7
안전성 정렬Constitutional AIRLHFGoogle AI PrinciplesSFT+RLHF
오픈소스
핵심 기여안전성+성능 균형범용 최강MMLU 90오픈소스

Claude 3.5 Sonnet & Claude 4 (2024-2025)

Digest: Claude 3.5 Sonnet(2024.06/10)은 Claude 3 Opus를 능가하면서 Sonnet 가격/속도를 유지한 획기적 모델로, 특히 코딩(HumanEval 93.7%)과 추론에서 GPT-4o에 필적하거나 능가했다. 이후 **Claude 4 Sonnet/Opus(2025)**는 확장 사고(Extended Thinking), 에이전트 코딩, 컴퓨터 사용(Computer Use) 기능을 도입하며 한 단계 더 진화했다. Claude 4 Opus는 SWE-bench Verified 72.5%로 최고 성능을 기록하며, 200K 컨텍스트 + 128K 확장 사고 토큰을 지원한다.


모델 진화

Claude 3.5 Sonnet (2024)

항목Claude 3.5 Sonnet (June)Claude 3.5 Sonnet (Oct, “new”)
출시2024년 6월2024년 10월
Context200K200K
비전
Computer Use✅ (beta)
MMLU88.788.7
HumanEval92.093.7
MATH78.3
가격15 per 1M tokens동일

Claude 4 시리즈 (2025)

모델용도특징Context
Claude 4 Opus최고 성능, 에이전트, 깊은 추론Extended Thinking (128K), 에이전트 코딩200K
Claude 4 Sonnet범용 균형Extended Thinking, 빠른 속도200K
Claude 3.5 Haiku빠른 응답, 대량 처리코딩 능력 향상200K

핵심 기능

Extended Thinking (확장 사고)

graph TD
    A["사용자 질문"] --> B["내부 추론 체인<br/>(최대 128K 토큰)"]
    B --> C["단계별 논리적 사고"]
    C --> D["최종 답변"]

    style B fill:#e8f5e9
  • 최대 128K 토큰의 내부 추론 (사용자에게 thinking 블록으로 노출)
  • 복잡한 수학, 코딩, 분석 태스크에서 성능 대폭 향상
  • budget_tokens 파라미터로 추론 예산 제어 가능

Computer Use

항목설명
기능스크린샷 관찰 → 마우스/키보드 조작
지원데스크톱 환경 제어
용도자동화, 테스트, 데이터 입력

에이전트 코딩 (Claude Code)

항목설명
SWE-bench VerifiedClaude 4 Opus: 72.5% (최고)
능력코드베이스 탐색, 파일 편집, 테스트 실행, Git 관리
터미널 CLIClaude Code로 직접 터미널에서 사용

벤치마크 비교

텍스트 벤치마크

벤치마크Claude 4 OpusClaude 4 SonnetClaude 3.5 Sonnet (Oct)GPT-4oGemini 1.5 Pro
MMLU (5-shot)88.788.785.9
GPQA Diamond73.7 (ext. thinking)68.665.053.6
MATH (0-shot)78.376.667.7
HumanEval (0-shot)93.790.271.9
SWE-bench Verified72.570.350.838.4
AIME 202483.3 (ext. thinking)80.09.3
LiveCodeBench높음높음38.933.4

Extended Thinking 효과

벤치마크기본Extended Thinking
GPQA Diamond~60%73.7%
AIME 2024~30%83.3%
MATH-500~80%~96%
SWE-bench~55%72.5%

안전성

항목설명
정렬 방법Constitutional AI (RLAIF) + RLHF
Responsible ScalingASL-3 수준 평가
Overrefusal 감소Claude 3 대비 overrefusal 크게 감소
긴 컨텍스트 안전성Many-shot jailbreak 대응

동시대 비교 매트릭스

특성Claude 4 Opus (2025.05)GPT-4o (2024.05)Gemini 2.5 ProDeepSeek-R1
Extended Thinking✅ (128K)✅ (CoT)
Computer Use
에이전트 코딩SWE-bench 72.5%38.4%
Context200K128K1M128K
오디오
비전
오픈소스
핵심 기여에이전트+안전성네이티브 멀티모달장문맥 추론오픈 추론

한계

  • 아키텍처 미공개: 완전 비공개
  • Extended Thinking 비용: 긴 추론 체인의 추가 토큰 비용
  • 오디오 미지원: 텍스트+이미지만 (오디오 입력 없음)
  • Hallucination: 개선되었으나 완전 해결은 아님