GPT Models

Digest: OpenAI의 GPT-4 시리즈는 아키텍처를 공개하지 않으면서 벤치마크 성능으로 LLM 경쟁을 주도한 모델이다. GPT-4(2023.03)는 멀티모달 입력과 전문 시험 성능으로 주목받았고, GPT-4o(2024.05)는 텍스트·이미지·오디오를 단일 end-to-end 모델로 통합하여 오디오 응답 지연을 320ms로 단축하면서 비용 50% 절감을 달성했다.

GPT-4 (2023.03)

Digest: GPT-4는 OpenAI가 발표한 대규모 멀티모달(텍스트+이미지) 언어 모델로, 모델 크기·아키텍처·학습 데이터를 공개하지 않은 최초의 주요 기술 보고서이다. 핵심 기여는 (1) 이미지+텍스트 입력 지원, (2) Uniform Bar Exam 상위 10%(GPT-3.5는 하위 10%), AP Biology 5점 등 전문 시험에서 인간 수준 달성, (3) 소규모 모델로 대규모 모델 성능을 예측하는 스케일링 예측 인프라 구축이다. RLHF로 정렬되었으며, 사실성과 안전성이 GPT-3.5 대비 크게 개선되었다. 루머상 ~1.8T 파라미터의 MoE(8×220B) 구조로 알려져 있으나 공식 미확인이다.

아키텍처 상세 (추정)

OpenAI는 공식적으로 아키텍처를 공개하지 않았다. 아래는 공식 보고서의 정보와 업계 추정치이다.

공식 확인된 정보

항목	값
입력 모달리티	텍스트 + 이미지
출력 모달리티	텍스트
Context Length	8K (기본) / 32K (확장)
학습 방법	사전학습 → RLHF
기반 아키텍처	Transformer (decoder-only, 추정)

비공식 추정 (George Hotz, leaks 기반)

항목	추정값
총 파라미터	~1.8T (MoE)
활성 파라미터	~220B (토큰당)
구조	8 experts × ~220B, top-2 라우팅
학습 데이터	~13T tokens
학습 기간	90100일 (A100 클러스터)

⚠️ 위 추정치는 공식 확인되지 않았으며, baseline 비교 시 주의 필요

스케일링 예측 인프라

GPT-4 보고서의 가장 중요한 기술적 기여 중 하나는 소규모 모델로 대규모 모델 성능을 사전 예측하는 인프라이다.

graph LR
    A["소규모 모델<br/>(1/10,000 compute)"] --> B["Scaling Law<br/>Power Law 피팅"]
    B --> C["GPT-4 성능 예측"]
    C --> D["실제 GPT-4 결과와<br/>비교 검증"]

    style C fill:#f9f,stroke:#333

HumanEval의 경우, 10,000배 적은 compute로 학습한 모델로 정확히 예측 성공
일부 벤치마크(Hindsight Neglect)는 예측 실패 — 태스크별 한계 존재

벤치마크 비교

전문 시험 성적

시험	GPT-4	GPT-3.5	인간 백분위 (GPT-4)
Uniform Bar Exam (MBE+MEE+MPT)	298/400	213/400	상위 ~10%
LSAT	163	149	상위 ~12%
SAT Math	700	590	상위 ~11%
SAT Evidence-Based R&W	710	670	상위 ~7%
GRE Quantitative	163	157	상위 ~20%
GRE Verbal	169	154	상위 ~1%
AP Biology	5	4	상위 ~15%
AP Chemistry	4	3	상위 ~26%
AP US History	5	4	상위 ~11%
AMC 10	30/150	36/150	—
AMC 12	60/150	24/150	—

학술 벤치마크

벤치마크	GPT-4	GPT-3.5	Claude (v1)	PaLM-2
MMLU (5-shot)	86.4	70.0	75.6	78.3
HellaSwag (10-shot)	95.3	85.5	—	—
HumanEval (0-shot)	67.0	48.1	—	—
WinoGrande (5-shot)	87.5	81.6	—	—
ARC-Challenge (25-shot)	96.3	85.2	—	—
DROP (3-shot, F1)	80.9	64.1	—	—

다국어 MMLU (번역)

언어	GPT-4	GPT-3.5
English	85.5	70.1
Korean	77.0	58.3
Chinese	80.1	63.5
Japanese	79.9	60.1
Italian	81.1	64.0

→ GPT-4는 대부분의 언어에서 GPT-3.5의 영어 성능을 초과

안전성 (Safety)

RLHF 정렬 결과

지표	GPT-4 (launch)	GPT-4 (early)	GPT-3.5
허용되지 않는 콘텐츠 요청 응답률	0.73%	6.48%	2.16%

Red teaming: 50명 이상의 외부 전문가가 adversarial 테스트 수행
Rule-based reward model (RBRM): 규칙 기반 보상 모델로 안전성 판단 보조

동시대 비교 매트릭스

특성	GPT-4 (2023.03)	GPT-3.5 (2022.11)	PaLM-2 (2023.05)	Claude v1 (2023.03)	LLaMA-65B (2023.02)
파라미터	미공개 (~1.8T MoE?)	미공개	미공개	미공개	65B
멀티모달	✅ (이미지 입력)	❌	❌	❌	❌
Context	8K/32K	4K/16K	—	100K	2K
MMLU	86.4	70.0	78.3	75.6	63.4
HumanEval	67.0	48.1	—	—	23.7
오픈소스	❌	❌	❌	❌	✅
핵심 기여	멀티모달+시험성능	ChatGPT 기반	효율적 스케일링	Long context	오픈소스 생태계

한계

아키텍처 미공개: 재현·비교 불가, 학술 검증 한계
데이터 미공개: 학습 데이터 구성·크기 일체 미공개
Hallucination: 여전히 사실과 다른 내용 생성 가능
추론 비용: 대규모 MoE 추정 → 추론 비용 높음
시간 제한: 학습 데이터 cutoff 존재 (2023년 9월까지)

GPT-4o (2024.05)

Digest: GPT-4o(“o”mni)는 OpenAI가 2024년 5월 발표한 네이티브 멀티모달 모델로, 텍스트·이미지·오디오를 단일 end-to-end 모델로 처리한다. 기존 GPT-4V가 별도의 음성 인식/합성 파이프라인을 사용한 반면, GPT-4o는 모든 모달리티를 하나의 신경망으로 처리하여 오디오 응답 지연을 320ms로 단축(인간 대화 수준)했다. 텍스트 성능은 GPT-4 Turbo와 동등하면서, 비용 50% 절감, 속도 2배 향상을 달성했다. GPT-4o mini는 더 소형화된 버전으로 비용 효율성에 최적화되었다. 아키텍처 상세는 미공개이다.

알려진 스펙

항목	GPT-4o	GPT-4o mini
입력 모달리티	텍스트, 이미지, 오디오	텍스트, 이미지
출력 모달리티	텍스트, 이미지, 오디오	텍스트
Context Length	128K	128K
Max Output Tokens	16K	16K
학습 데이터 Cutoff	2023년 10월	2023년 10월
API 가격 (입력)	$2.50/1M tokens	$0.15/1M tokens
API 가격 (출력)	$10.00/1M tokens	$0.60/1M tokens
아키텍처	미공개 (네이티브 멀티모달)	미공개

멀티모달 처리 방식 비교

graph TD
    subgraph Old["GPT-4V 파이프라인 (이전)"]
        A1["음성 입력"] --> A2["Whisper<br/>(ASR)"]
        A2 --> A3["GPT-4V<br/>(텍스트 처리)"]
        A3 --> A4["TTS<br/>(음성 합성)"]
        A4 --> A5["음성 출력"]
    end

    subgraph New["GPT-4o (네이티브)"]
        B1["음성/이미지/텍스트<br/>입력"] --> B2["단일 모델<br/>(End-to-End)"]
        B2 --> B3["음성/이미지/텍스트<br/>출력"]
    end

    style New fill:#e8f5e9

벤치마크 비교

텍스트 벤치마크

벤치마크	GPT-4o	GPT-4 Turbo	GPT-4o mini	Claude 3.5 Sonnet	Gemini 1.5 Pro
MMLU (5-shot)	88.7	86.4	82.0	88.7	85.9
GPQA (0-shot)	53.6	—	—	59.4	—
HumanEval (0-shot)	90.2	67.0	87.2	92.0	71.9
MATH (0-shot)	76.6	52.9	70.2	71.1	67.7
MGSM	90.5	—	—	91.6	—

비전 벤치마크

벤치마크	GPT-4o	GPT-4 Turbo	Gemini 1.5 Pro
MMMU	69.1	61.7	62.2
MathVista	63.8	58.1	63.9
AI2D	94.2	78.2	80.3
ChartQA	85.7	78.5	81.3

오디오 벤치마크

벤치마크	GPT-4o	Whisper v3	기타
음성 인식 (WER, 영어)	—	4.2%	—
오디오 응답 지연	~320ms	N/A (파이프라인)	~2-5초 (파이프라인)
감정 인식	✅	❌	—
음성 스타일 다양성	✅	❌	—

안전성 (Safety)

Preparedness Framework 평가

위험 카테고리	GPT-4o 등급
Cybersecurity	Medium
CBRN (화학/생물/방사선/핵)	Medium
Persuasion	Medium
Model Autonomy	Low

주요 안전 조치

음성 출력 제한: 사전 정의된 4개 음성만 허용 (무단 음성 복제 방지)
NSFW 오디오: 에로틱/폭력적 오디오 생성 차단
Speaker identification: 화자 식별 의도적 비활성화
Jailbreak 저항: GPT-4 Turbo 대비 개선

동시대 비교 매트릭스

특성	GPT-4o (2024.05)	GPT-4 Turbo	Claude 3.5 Sonnet	Gemini 1.5 Pro
네이티브 멀티모달	✅ (오디오+비전+텍스트)	❌ (비전만)	❌ (비전만)	✅ (비전+오디오)
Context	128K	128K	200K	1M
오디오 지연	320ms	2-5초 (파이프라인)	❌	—
비용 (입력/1M)	$2.50	$10.00	$3.00	$3.50
MMLU	88.7	86.4	88.7	85.9
핵심 기여	네이티브 멀티모달 통합	시험 성능	코딩/추론	Long context

한계

아키텍처 완전 미공개: 학술적 재현 불가
오디오 한계: 발표 시점에 음성 기능 제한적 출시 (안전 문제)
비전 한계: OCR 수준은 높으나 복잡한 공간 추론에 한계
Hallucination: GPT-4 대비 소폭 개선이나 근본적 미해결

Juhyeon's Blog

탐색기

GPT Models

GPT Models

GPT-4 (2023.03)

아키텍처 상세 (추정)

공식 확인된 정보

비공식 추정 (George Hotz, leaks 기반)

스케일링 예측 인프라

벤치마크 비교

전문 시험 성적

학술 벤치마크

다국어 MMLU (번역)

안전성 (Safety)

RLHF 정렬 결과

동시대 비교 매트릭스

한계

GPT-4o (2024.05)

알려진 스펙

멀티모달 처리 방식 비교

벤치마크 비교

텍스트 벤치마크

비전 벤치마크

오디오 벤치마크

안전성 (Safety)

Preparedness Framework 평가

주요 안전 조치

동시대 비교 매트릭스

한계

그래프 뷰

목차

Properties

백링크