GPT Models

Digest: OpenAI의 GPT-4 시리즈는 아키텍처를 공개하지 않으면서 벤치마크 성능으로 LLM 경쟁을 주도한 모델이다. GPT-4(2023.03)는 멀티모달 입력과 전문 시험 성능으로 주목받았고, GPT-4o(2024.05)는 텍스트·이미지·오디오를 단일 end-to-end 모델로 통합하여 오디오 응답 지연을 320ms로 단축하면서 비용 50% 절감을 달성했다.


GPT-4 (2023.03)

Digest: GPT-4는 OpenAI가 발표한 대규모 멀티모달(텍스트+이미지) 언어 모델로, 모델 크기·아키텍처·학습 데이터를 공개하지 않은 최초의 주요 기술 보고서이다. 핵심 기여는 (1) 이미지+텍스트 입력 지원, (2) Uniform Bar Exam 상위 10%(GPT-3.5는 하위 10%), AP Biology 5점 등 전문 시험에서 인간 수준 달성, (3) 소규모 모델로 대규모 모델 성능을 예측하는 스케일링 예측 인프라 구축이다. RLHF로 정렬되었으며, 사실성과 안전성이 GPT-3.5 대비 크게 개선되었다. 루머상 ~1.8T 파라미터의 MoE(8×220B) 구조로 알려져 있으나 공식 미확인이다.


아키텍처 상세 (추정)

OpenAI는 공식적으로 아키텍처를 공개하지 않았다. 아래는 공식 보고서의 정보와 업계 추정치이다.

공식 확인된 정보

항목
입력 모달리티텍스트 + 이미지
출력 모달리티텍스트
Context Length8K (기본) / 32K (확장)
학습 방법사전학습 → RLHF
기반 아키텍처Transformer (decoder-only, 추정)

비공식 추정 (George Hotz, leaks 기반)

항목추정값
총 파라미터~1.8T (MoE)
활성 파라미터~220B (토큰당)
구조8 experts × ~220B, top-2 라우팅
학습 데이터~13T tokens
학습 기간90100일 (A100 클러스터)

⚠️ 위 추정치는 공식 확인되지 않았으며, baseline 비교 시 주의 필요


스케일링 예측 인프라

GPT-4 보고서의 가장 중요한 기술적 기여 중 하나는 소규모 모델로 대규모 모델 성능을 사전 예측하는 인프라이다.

graph LR
    A["소규모 모델<br/>(1/10,000 compute)"] --> B["Scaling Law<br/>Power Law 피팅"]
    B --> C["GPT-4 성능 예측"]
    C --> D["실제 GPT-4 결과와<br/>비교 검증"]

    style C fill:#f9f,stroke:#333
  • HumanEval의 경우, 10,000배 적은 compute로 학습한 모델로 정확히 예측 성공
  • 일부 벤치마크(Hindsight Neglect)는 예측 실패 — 태스크별 한계 존재

벤치마크 비교

전문 시험 성적

시험GPT-4GPT-3.5인간 백분위 (GPT-4)
Uniform Bar Exam (MBE+MEE+MPT)298/400213/400상위 ~10%
LSAT163149상위 ~12%
SAT Math700590상위 ~11%
SAT Evidence-Based R&W710670상위 ~7%
GRE Quantitative163157상위 ~20%
GRE Verbal169154상위 ~1%
AP Biology54상위 ~15%
AP Chemistry43상위 ~26%
AP US History54상위 ~11%
AMC 1030/15036/150
AMC 1260/15024/150

학술 벤치마크

벤치마크GPT-4GPT-3.5Claude (v1)PaLM-2
MMLU (5-shot)86.470.075.678.3
HellaSwag (10-shot)95.385.5
HumanEval (0-shot)67.048.1
WinoGrande (5-shot)87.581.6
ARC-Challenge (25-shot)96.385.2
DROP (3-shot, F1)80.964.1

다국어 MMLU (번역)

언어GPT-4GPT-3.5
English85.570.1
Korean77.058.3
Chinese80.163.5
Japanese79.960.1
Italian81.164.0

→ GPT-4는 대부분의 언어에서 GPT-3.5의 영어 성능을 초과


안전성 (Safety)

RLHF 정렬 결과

지표GPT-4 (launch)GPT-4 (early)GPT-3.5
허용되지 않는 콘텐츠 요청 응답률0.73%6.48%2.16%
  • Red teaming: 50명 이상의 외부 전문가가 adversarial 테스트 수행
  • Rule-based reward model (RBRM): 규칙 기반 보상 모델로 안전성 판단 보조

동시대 비교 매트릭스

특성GPT-4 (2023.03)GPT-3.5 (2022.11)PaLM-2 (2023.05)Claude v1 (2023.03)LLaMA-65B (2023.02)
파라미터미공개 (~1.8T MoE?)미공개미공개미공개65B
멀티모달✅ (이미지 입력)
Context8K/32K4K/16K100K2K
MMLU86.470.078.375.663.4
HumanEval67.048.123.7
오픈소스
핵심 기여멀티모달+시험성능ChatGPT 기반효율적 스케일링Long context오픈소스 생태계

한계

  • 아키텍처 미공개: 재현·비교 불가, 학술 검증 한계
  • 데이터 미공개: 학습 데이터 구성·크기 일체 미공개
  • Hallucination: 여전히 사실과 다른 내용 생성 가능
  • 추론 비용: 대규모 MoE 추정 → 추론 비용 높음
  • 시간 제한: 학습 데이터 cutoff 존재 (2023년 9월까지)

GPT-4o (2024.05)

Digest: GPT-4o(“o”mni)는 OpenAI가 2024년 5월 발표한 네이티브 멀티모달 모델로, 텍스트·이미지·오디오를 단일 end-to-end 모델로 처리한다. 기존 GPT-4V가 별도의 음성 인식/합성 파이프라인을 사용한 반면, GPT-4o는 모든 모달리티를 하나의 신경망으로 처리하여 오디오 응답 지연을 320ms로 단축(인간 대화 수준)했다. 텍스트 성능은 GPT-4 Turbo와 동등하면서, 비용 50% 절감, 속도 2배 향상을 달성했다. GPT-4o mini는 더 소형화된 버전으로 비용 효율성에 최적화되었다. 아키텍처 상세는 미공개이다.


알려진 스펙

항목GPT-4oGPT-4o mini
입력 모달리티텍스트, 이미지, 오디오텍스트, 이미지
출력 모달리티텍스트, 이미지, 오디오텍스트
Context Length128K128K
Max Output Tokens16K16K
학습 데이터 Cutoff2023년 10월2023년 10월
API 가격 (입력)$2.50/1M tokens$0.15/1M tokens
API 가격 (출력)$10.00/1M tokens$0.60/1M tokens
아키텍처미공개 (네이티브 멀티모달)미공개

멀티모달 처리 방식 비교

graph TD
    subgraph Old["GPT-4V 파이프라인 (이전)"]
        A1["음성 입력"] --> A2["Whisper<br/>(ASR)"]
        A2 --> A3["GPT-4V<br/>(텍스트 처리)"]
        A3 --> A4["TTS<br/>(음성 합성)"]
        A4 --> A5["음성 출력"]
    end

    subgraph New["GPT-4o (네이티브)"]
        B1["음성/이미지/텍스트<br/>입력"] --> B2["단일 모델<br/>(End-to-End)"]
        B2 --> B3["음성/이미지/텍스트<br/>출력"]
    end

    style New fill:#e8f5e9

벤치마크 비교

텍스트 벤치마크

벤치마크GPT-4oGPT-4 TurboGPT-4o miniClaude 3.5 SonnetGemini 1.5 Pro
MMLU (5-shot)88.786.482.088.785.9
GPQA (0-shot)53.659.4
HumanEval (0-shot)90.267.087.292.071.9
MATH (0-shot)76.652.970.271.167.7
MGSM90.591.6

비전 벤치마크

벤치마크GPT-4oGPT-4 TurboGemini 1.5 Pro
MMMU69.161.762.2
MathVista63.858.163.9
AI2D94.278.280.3
ChartQA85.778.581.3

오디오 벤치마크

벤치마크GPT-4oWhisper v3기타
음성 인식 (WER, 영어)4.2%
오디오 응답 지연~320msN/A (파이프라인)~2-5초 (파이프라인)
감정 인식
음성 스타일 다양성

안전성 (Safety)

Preparedness Framework 평가

위험 카테고리GPT-4o 등급
CybersecurityMedium
CBRN (화학/생물/방사선/핵)Medium
PersuasionMedium
Model AutonomyLow

주요 안전 조치

  • 음성 출력 제한: 사전 정의된 4개 음성만 허용 (무단 음성 복제 방지)
  • NSFW 오디오: 에로틱/폭력적 오디오 생성 차단
  • Speaker identification: 화자 식별 의도적 비활성화
  • Jailbreak 저항: GPT-4 Turbo 대비 개선

동시대 비교 매트릭스

특성GPT-4o (2024.05)GPT-4 TurboClaude 3.5 SonnetGemini 1.5 Pro
네이티브 멀티모달✅ (오디오+비전+텍스트)❌ (비전만)❌ (비전만)✅ (비전+오디오)
Context128K128K200K1M
오디오 지연320ms2-5초 (파이프라인)
비용 (입력/1M)$2.50$10.00$3.00$3.50
MMLU88.786.488.785.9
핵심 기여네이티브 멀티모달 통합시험 성능코딩/추론Long context

한계

  • 아키텍처 완전 미공개: 학술적 재현 불가
  • 오디오 한계: 발표 시점에 음성 기능 제한적 출시 (안전 문제)
  • 비전 한계: OCR 수준은 높으나 복잡한 공간 추론에 한계
  • Hallucination: GPT-4 대비 소폭 개선이나 근본적 미해결