Digest: OpenAI의 GPT-4 시리즈는 아키텍처를 공개하지 않으면서 벤치마크 성능으로 LLM 경쟁을 주도한 모델이다. GPT-4(2023.03)는 멀티모달 입력과 전문 시험 성능으로 주목받았고, GPT-4o(2024.05)는 텍스트·이미지·오디오를 단일 end-to-end 모델로 통합하여 오디오 응답 지연을 320ms로 단축하면서 비용 50% 절감을 달성했다.
GPT-4 (2023.03)
Digest: GPT-4는 OpenAI가 발표한 대규모 멀티모달(텍스트+이미지) 언어 모델로, 모델 크기·아키텍처·학습 데이터를 공개하지 않은 최초의 주요 기술 보고서이다. 핵심 기여는 (1) 이미지+텍스트 입력 지원, (2) Uniform Bar Exam 상위 10%(GPT-3.5는 하위 10%), AP Biology 5점 등 전문 시험에서 인간 수준 달성, (3) 소규모 모델로 대규모 모델 성능을 예측하는 스케일링 예측 인프라 구축이다. RLHF로 정렬되었으며, 사실성과 안전성이 GPT-3.5 대비 크게 개선되었다. 루머상 ~1.8T 파라미터의 MoE(8×220B) 구조로 알려져 있으나 공식 미확인이다.
아키텍처 상세 (추정)
OpenAI는 공식적으로 아키텍처를 공개하지 않았다. 아래는 공식 보고서의 정보와 업계 추정치이다.
공식 확인된 정보
항목
값
입력 모달리티
텍스트 + 이미지
출력 모달리티
텍스트
Context Length
8K (기본) / 32K (확장)
학습 방법
사전학습 → RLHF
기반 아키텍처
Transformer (decoder-only, 추정)
비공식 추정 (George Hotz, leaks 기반)
항목
추정값
총 파라미터
~1.8T (MoE)
활성 파라미터
~220B (토큰당)
구조
8 experts × ~220B, top-2 라우팅
학습 데이터
~13T tokens
학습 기간
90100일 (A100 클러스터)
⚠️ 위 추정치는 공식 확인되지 않았으며, baseline 비교 시 주의 필요
스케일링 예측 인프라
GPT-4 보고서의 가장 중요한 기술적 기여 중 하나는 소규모 모델로 대규모 모델 성능을 사전 예측하는 인프라이다.
graph LR
A["소규모 모델<br/>(1/10,000 compute)"] --> B["Scaling Law<br/>Power Law 피팅"]
B --> C["GPT-4 성능 예측"]
C --> D["실제 GPT-4 결과와<br/>비교 검증"]
style C fill:#f9f,stroke:#333
HumanEval의 경우, 10,000배 적은 compute로 학습한 모델로 정확히 예측 성공
일부 벤치마크(Hindsight Neglect)는 예측 실패 — 태스크별 한계 존재
벤치마크 비교
전문 시험 성적
시험
GPT-4
GPT-3.5
인간 백분위 (GPT-4)
Uniform Bar Exam (MBE+MEE+MPT)
298/400
213/400
상위 ~10%
LSAT
163
149
상위 ~12%
SAT Math
700
590
상위 ~11%
SAT Evidence-Based R&W
710
670
상위 ~7%
GRE Quantitative
163
157
상위 ~20%
GRE Verbal
169
154
상위 ~1%
AP Biology
5
4
상위 ~15%
AP Chemistry
4
3
상위 ~26%
AP US History
5
4
상위 ~11%
AMC 10
30/150
36/150
—
AMC 12
60/150
24/150
—
학술 벤치마크
벤치마크
GPT-4
GPT-3.5
Claude (v1)
PaLM-2
MMLU (5-shot)
86.4
70.0
75.6
78.3
HellaSwag (10-shot)
95.3
85.5
—
—
HumanEval (0-shot)
67.0
48.1
—
—
WinoGrande (5-shot)
87.5
81.6
—
—
ARC-Challenge (25-shot)
96.3
85.2
—
—
DROP (3-shot, F1)
80.9
64.1
—
—
다국어 MMLU (번역)
언어
GPT-4
GPT-3.5
English
85.5
70.1
Korean
77.0
58.3
Chinese
80.1
63.5
Japanese
79.9
60.1
Italian
81.1
64.0
→ GPT-4는 대부분의 언어에서 GPT-3.5의 영어 성능을 초과
안전성 (Safety)
RLHF 정렬 결과
지표
GPT-4 (launch)
GPT-4 (early)
GPT-3.5
허용되지 않는 콘텐츠 요청 응답률
0.73%
6.48%
2.16%
Red teaming: 50명 이상의 외부 전문가가 adversarial 테스트 수행
Rule-based reward model (RBRM): 규칙 기반 보상 모델로 안전성 판단 보조
동시대 비교 매트릭스
특성
GPT-4 (2023.03)
GPT-3.5 (2022.11)
PaLM-2 (2023.05)
Claude v1 (2023.03)
LLaMA-65B (2023.02)
파라미터
미공개 (~1.8T MoE?)
미공개
미공개
미공개
65B
멀티모달
✅ (이미지 입력)
❌
❌
❌
❌
Context
8K/32K
4K/16K
—
100K
2K
MMLU
86.4
70.0
78.3
75.6
63.4
HumanEval
67.0
48.1
—
—
23.7
오픈소스
❌
❌
❌
❌
✅
핵심 기여
멀티모달+시험성능
ChatGPT 기반
효율적 스케일링
Long context
오픈소스 생태계
한계
아키텍처 미공개: 재현·비교 불가, 학술 검증 한계
데이터 미공개: 학습 데이터 구성·크기 일체 미공개
Hallucination: 여전히 사실과 다른 내용 생성 가능
추론 비용: 대규모 MoE 추정 → 추론 비용 높음
시간 제한: 학습 데이터 cutoff 존재 (2023년 9월까지)
GPT-4o (2024.05)
Digest: GPT-4o(“o”mni)는 OpenAI가 2024년 5월 발표한 네이티브 멀티모달 모델로, 텍스트·이미지·오디오를 단일 end-to-end 모델로 처리한다. 기존 GPT-4V가 별도의 음성 인식/합성 파이프라인을 사용한 반면, GPT-4o는 모든 모달리티를 하나의 신경망으로 처리하여 오디오 응답 지연을 320ms로 단축(인간 대화 수준)했다. 텍스트 성능은 GPT-4 Turbo와 동등하면서, 비용 50% 절감, 속도 2배 향상을 달성했다. GPT-4o mini는 더 소형화된 버전으로 비용 효율성에 최적화되었다. 아키텍처 상세는 미공개이다.