Mistral Models

Digest: Mistral AI의 모델 시리즈는 효율적 아키텍처 혁신을 핵심으로 한다. Mistral 7B(2023.10)는 **Sliding Window Attention(SWA)**과 GQA를 결합하여 7B로 LLaMA 2-13B를 능가했고, Mixtral 8x7B(2024.01)는 **Sparse MoE(8 전문가, Top-2)**로 총 46.7B 중 12.9B만 활성화하여 LLaMA 2-70B급 성능을 6배 빠른 추론 속도로 달성했다. 모두 Apache 2.0으로 공개되었다.

Mistral 7B (2023.10)

Digest: Mistral 7B는 Mistral AI가 발표한 7.3B 파라미터 언어 모델로, **Sliding Window Attention(SWA)**과 **GQA(Grouped Query Attention)**를 결합하여 모든 벤치마크에서 LLaMA 2-13B를 능가하고, 코드/수학에서 LLaMA 1-34B에 필적하는 성능을 달성했다. SWA는 윈도우 크기 4096으로 제한하되 레이어 스택을 통해 이론적으로 ~131K 토큰의 정보에 접근 가능하며, Rolling Buffer KV Cache로 메모리를 절약한다. Apache 2.0 라이선스로 완전 공개되어 오픈소스 LLM 생태계에 큰 영향을 미쳤다.

아키텍처 상세

모델 스펙

항목	값
파라미터	7.3B
Layers	32
d_model	4096
FFN Dim	14336
Q Heads	32
KV Heads	8 (GQA, 4:1 ratio)
Head Dim	128
Context Length	8192 (SWA window: 4096)
Vocab	32,000
Tokenizer	SentencePiece BPE

아키텍처 핵심 구성요소

구성요소	설명
Sliding Window Attention (SWA)	윈도우 크기 W=4096, 각 토큰이 이전 4096 토큰만 직접 attend
GQA	KV 헤드 8개, Q 헤드 32개 — 추론 속도 향상
RoPE	회전 위치 임베딩 (LLaMA 방식)
Pre-RMSNorm	LLaMA와 동일
SwiGLU	FFN dim 14336 (LLaMA 7B의 11008보다 큼)
Rolling Buffer KV Cache	윈도우 크기만큼만 KV 저장 → 메모리 O(W)

Sliding Window Attention 메커니즘

graph TD
    subgraph SWA["Sliding Window Attention"]
        A["Layer 1: 토큰 t가<br/>t-W ~ t 까지 attend"] --> B["Layer 2: 토큰 t가<br/>t-2W ~ t 정보 접근"]
        B --> C["Layer k: 토큰 t가<br/>t-kW ~ t 정보 접근"]
    end

    D["W = 4096, L = 32"] --> E["이론적 attend 범위:<br/>32 × 4096 = 131,072 토큰"]

    subgraph Cache["Rolling Buffer KV Cache"]
        F["Position i → Cache[i mod W]<br/>고정 메모리 W entries"]
    end

이론적 attend 범위: $L \times W = 32 \times 4096 = 131, 072$ 토큰
실제로는 상위 레이어에서 하위 레이어 정보가 점차 희석

사전 학습

학습 데이터

항목	값
데이터 소스	미공개 (인터넷 크롤링 기반으로 추정)
토큰 수	미공개
언어	영어 중심 (다국어 포함 추정)

학습 하이퍼파라미터

공식 보고서에 상세 하이퍼파라미터는 미공개. 아래는 모델 구조에서 추론 가능한 정보.

항목	값
기반 아키텍처	LLaMA 구조 기반 변형
활성 함수	SwiGLU
Normalization	Pre-RMSNorm
Position Encoding	RoPE (θ=10,000)

벤치마크 비교

주요 벤치마크

벤치마크	Mistral 7B	LLaMA 2-7B	LLaMA 2-13B	LLaMA 1-34B
MMLU (5-shot)	60.1	45.3	54.8	57.8
HellaSwag (0-shot)	81.3	77.2	80.7	82.8
WinoGrande	75.3	69.2	72.2	76.0
ARC-Challenge (25-shot)	55.5	45.9	49.7	54.3
TriviaQA (5-shot)	62.5	68.9	77.2	—
GSM8K (8-shot)	35.4	14.6	28.7	35.6
HumanEval (0-shot)	30.5	12.8	18.3	—
MATH (4-shot)	13.1	2.5	5.0	—
MBPP (3-shot)	47.5	20.8	31.3	—

핵심 비교

Mistral 7B > LLaMA 2-13B: 거의 모든 벤치마크에서 2배 작은 모델이 우세
Mistral 7B ≈ LLaMA 1-34B: 코드/수학에서 5배 작은 모델과 대등

Mistral 7B-Instruct

항목	값
방법	SFT only (RLHF 없음)
데이터	Hugging Face 공개 instruction 데이터셋
MT-Bench	6.84 (LLaMA 2-13B-Chat 6.65 능가)

동시대 비교 매트릭스

특성	Mistral 7B (2023.10)	LLaMA 2-7B (2023.07)	LLaMA 2-13B (2023.07)	Falcon-7B (2023.06)
파라미터	7.3B	6.7B	13.0B	7.0B
Attention	SWA + GQA	MHA	MHA	MQA
KV Heads	8	32	40	1
FFN Dim	14336	11008	13824	18176
Context	8192	4096	4096	2048
MMLU	60.1	45.3	54.8	26.2
라이선스	Apache 2.0	Meta 제한	Meta 제한	Apache 2.0
핵심 기여	SWA 효율성	오픈소스 기반	—	RefinedWeb

Mixtral 8x7B (2024.01)

Digest: Mixtral 8x7B는 Mistral AI가 발표한 Sparse Mixture of Experts(SMoE) 모델로, 총 46.7B 파라미터 중 토큰당 12.9B만 활성화하여 LLaMA 2-70B와 동등하거나 우수한 성능을 달성한다. 각 Transformer 블록의 FFN을 8개 전문가 네트워크로 교체하고 Top-2 라우터로 선택하는 구조이다. Mistral 7B의 SWA와 GQA를 유지하면서, 추론 속도는 LLaMA 2-70B 대비 6배 빠르다. Mixtral 8x7B-Instruct는 GPT-3.5 Turbo를 대부분의 벤치마크에서 능가하며, Apache 2.0으로 공개되었다.

아키텍처 상세

모델 스펙

항목	Mixtral 8x7B
총 파라미터	46.7B
활성 파라미터 (토큰당)	12.9B
Layers	32
d_model	4096
Q Heads	32
KV Heads	8 (GQA)
Head Dim	128
전문가 수 / 활성화	8 / Top-2
전문가당 FFN Dim	14336
Context Length	32768
Vocab	32,000
Sliding Window	4096

아키텍처 핵심 구성요소

구성요소	설명
Sparse MoE	각 레이어의 FFN을 8개 전문가로 교체, Top-2 라우팅
Router	Linear layer → Softmax → Top-2 선택
GQA	Mistral 7B와 동일 (KV 8 heads)
SWA	윈도우 크기 4096 유지
RoPE	회전 위치 임베딩
Pre-RMSNorm	표준 Pre-Norm
SwiGLU	각 전문가가 독립 SwiGLU FFN

MoE 라우팅 수식

$y = \sum_{i = 1}^{8} G (x)_{i} \cdot E_{i} (x), G (x) = Softmax (Top_{2} (x \cdot W_{g}))$

$G (x)$ : 게이트 네트워크 출력 (8차원 중 Top-2만 비영)
$E_{i} (x)$ : i번째 전문가의 SwiGLU FFN 출력
가중합으로 최종 출력 생성

graph TD
    A["입력 x"] --> B["RMSNorm"]
    B --> C["GQA + SWA + RoPE"]
    C --> D["RMSNorm"]
    D --> E["Router<br/>(Linear → Softmax → Top-2)"]

    E --> F1["Expert 1<br/>SwiGLU FFN"]
    E --> F2["Expert 2<br/>SwiGLU FFN"]
    E -.-> F3["Expert 3~8<br/>(비활성)"]

    F1 --> G["가중합<br/>G₁·E₁(x) + G₂·E₂(x)"]
    F2 --> G
    G --> H["Residual Add"]

사전 학습

학습 데이터

항목	값
데이터 소스	미공개 (인터넷 데이터)
토큰 수	미공개
Context	32K

학습 하이퍼파라미터

상세 미공개. Mistral 7B 기반 확장.

전문가 분석

논문에서 전문가의 특화(specialization) 패턴을 분석:

도메인별 전문화는 약함: 특정 전문가가 특정 도메인에 완전히 특화되지 않음
구문적 패턴: 특정 전문가가 특정 토큰 유형(숫자, 코드, 영어 텍스트 등)에 더 자주 선택됨
위치 의존성: 레이어에 따라 라우팅 패턴이 달라짐
연속 토큰: 같은 전문가가 연속적으로 선택되는 경향 있음

벤치마크 비교

사전학습 모델

벤치마크	Mixtral 8x7B	LLaMA 2-70B	GPT-3.5	Mistral 7B
MMLU (5-shot)	70.6	68.9	70.0	60.1
HellaSwag (0-shot)	84.4	85.3	—	81.3
WinoGrande	77.2	—	—	75.3
ARC-Challenge	60.6	57.4	—	55.5
GSM8K (8-shot)	58.4	56.8	57.1	35.4
HumanEval (0-shot)	40.2	29.9	48.1	30.5
MATH (4-shot)	28.4	13.5	—	13.1
MBPP (3-shot)	60.7	—	—	47.5

Instruct 모델 (Mixtral 8x7B-Instruct)

벤치마크	Mixtral-Instruct	GPT-3.5 Turbo	LLaMA 2-70B-Chat
MT-Bench	8.30	8.32	6.86
MMLU	70.6	70.0	63.9
GSM8K	74.4	57.1	56.8
ARC-Challenge	70.1	—	—

→ Mixtral-Instruct ≈ GPT-3.5 Turbo: MT-Bench에서 거의 동등, 수학에서 우세

동시대 비교 매트릭스

특성	Mixtral 8x7B (2024.01)	LLaMA 2-70B (2023.07)	GPT-3.5 (2022.11)	Mistral 7B (2023.10)
총 파라미터	46.7B	70B	미공개	7.3B
활성 파라미터	12.9B	70B	미공개	7.3B
MoE	✅ (8 experts, Top-2)	❌ (Dense)	미공개	❌
Context	32K	4K	4K/16K	8K
MMLU	70.6	68.9	70.0	60.1
추론 속도	6× LLaMA 2-70B	1× (기준)	—	더 빠름
라이선스	Apache 2.0	Meta 제한	API만	Apache 2.0
핵심 기여	오픈 MoE 기준점	오픈 RLHF	RLHF 대화	SWA 효율성

한계

메모리 사용량: 총 46.7B 파라미터를 모두 GPU에 로드해야 함 (활성화는 12.9B이지만)
전문가 특화 부족: 이상적 전문가 특화와 거리 있음
Load Balancing: 라우팅 불균형 발생 가능 (별도 balancing loss 미언급)
학습 상세 미공개: 재현 불가

Juhyeon's Blog

탐색기

Mistral Models

Mistral Models

Mistral 7B (2023.10)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

Sliding Window Attention 메커니즘

사전 학습

학습 데이터

학습 하이퍼파라미터

벤치마크 비교

주요 벤치마크

핵심 비교

Mistral 7B-Instruct

동시대 비교 매트릭스

Mixtral 8x7B (2024.01)

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

MoE 라우팅 수식

사전 학습

학습 데이터

학습 하이퍼파라미터

전문가 분석

벤치마크 비교

사전학습 모델

Instruct 모델 (Mixtral 8x7B-Instruct)

동시대 비교 매트릭스

한계

그래프 뷰

목차

Properties

백링크