Mistral Models

Digest: Mistral AI의 모델 시리즈는 효율적 아키텍처 혁신을 핵심으로 한다. Mistral 7B(2023.10)는 **Sliding Window Attention(SWA)**과 GQA를 결합하여 7B로 LLaMA 2-13B를 능가했고, Mixtral 8x7B(2024.01)는 **Sparse MoE(8 전문가, Top-2)**로 총 46.7B 중 12.9B만 활성화하여 LLaMA 2-70B급 성능을 6배 빠른 추론 속도로 달성했다. 모두 Apache 2.0으로 공개되었다.


Mistral 7B (2023.10)

Digest: Mistral 7B는 Mistral AI가 발표한 7.3B 파라미터 언어 모델로, **Sliding Window Attention(SWA)**과 **GQA(Grouped Query Attention)**를 결합하여 모든 벤치마크에서 LLaMA 2-13B를 능가하고, 코드/수학에서 LLaMA 1-34B에 필적하는 성능을 달성했다. SWA는 윈도우 크기 4096으로 제한하되 레이어 스택을 통해 이론적으로 ~131K 토큰의 정보에 접근 가능하며, Rolling Buffer KV Cache로 메모리를 절약한다. Apache 2.0 라이선스로 완전 공개되어 오픈소스 LLM 생태계에 큰 영향을 미쳤다.


아키텍처 상세

모델 스펙

항목
파라미터7.3B
Layers32
d_model4096
FFN Dim14336
Q Heads32
KV Heads8 (GQA, 4:1 ratio)
Head Dim128
Context Length8192 (SWA window: 4096)
Vocab32,000
TokenizerSentencePiece BPE

아키텍처 핵심 구성요소

구성요소설명
Sliding Window Attention (SWA)윈도우 크기 W=4096, 각 토큰이 이전 4096 토큰만 직접 attend
GQAKV 헤드 8개, Q 헤드 32개 — 추론 속도 향상
RoPE회전 위치 임베딩 (LLaMA 방식)
Pre-RMSNormLLaMA와 동일
SwiGLUFFN dim 14336 (LLaMA 7B의 11008보다 큼)
Rolling Buffer KV Cache윈도우 크기만큼만 KV 저장 → 메모리 O(W)

Sliding Window Attention 메커니즘

graph TD
    subgraph SWA["Sliding Window Attention"]
        A["Layer 1: 토큰 t가<br/>t-W ~ t 까지 attend"] --> B["Layer 2: 토큰 t가<br/>t-2W ~ t 정보 접근"]
        B --> C["Layer k: 토큰 t가<br/>t-kW ~ t 정보 접근"]
    end

    D["W = 4096, L = 32"] --> E["이론적 attend 범위:<br/>32 × 4096 = 131,072 토큰"]

    subgraph Cache["Rolling Buffer KV Cache"]
        F["Position i → Cache[i mod W]<br/>고정 메모리 W entries"]
    end
  • 이론적 attend 범위: 토큰
  • 실제로는 상위 레이어에서 하위 레이어 정보가 점차 희석

사전 학습

학습 데이터

항목
데이터 소스미공개 (인터넷 크롤링 기반으로 추정)
토큰 수미공개
언어영어 중심 (다국어 포함 추정)

학습 하이퍼파라미터

공식 보고서에 상세 하이퍼파라미터는 미공개. 아래는 모델 구조에서 추론 가능한 정보.

항목
기반 아키텍처LLaMA 구조 기반 변형
활성 함수SwiGLU
NormalizationPre-RMSNorm
Position EncodingRoPE (θ=10,000)

벤치마크 비교

주요 벤치마크

벤치마크Mistral 7BLLaMA 2-7BLLaMA 2-13BLLaMA 1-34B
MMLU (5-shot)60.145.354.857.8
HellaSwag (0-shot)81.377.280.782.8
WinoGrande75.369.272.276.0
ARC-Challenge (25-shot)55.545.949.754.3
TriviaQA (5-shot)62.568.977.2
GSM8K (8-shot)35.414.628.735.6
HumanEval (0-shot)30.512.818.3
MATH (4-shot)13.12.55.0
MBPP (3-shot)47.520.831.3

핵심 비교

  • Mistral 7B > LLaMA 2-13B: 거의 모든 벤치마크에서 2배 작은 모델이 우세
  • Mistral 7B ≈ LLaMA 1-34B: 코드/수학에서 5배 작은 모델과 대등

Mistral 7B-Instruct

항목
방법SFT only (RLHF 없음)
데이터Hugging Face 공개 instruction 데이터셋
MT-Bench6.84 (LLaMA 2-13B-Chat 6.65 능가)

동시대 비교 매트릭스

특성Mistral 7B (2023.10)LLaMA 2-7B (2023.07)LLaMA 2-13B (2023.07)Falcon-7B (2023.06)
파라미터7.3B6.7B13.0B7.0B
AttentionSWA + GQAMHAMHAMQA
KV Heads832401
FFN Dim14336110081382418176
Context8192409640962048
MMLU60.145.354.826.2
라이선스Apache 2.0Meta 제한Meta 제한Apache 2.0
핵심 기여SWA 효율성오픈소스 기반RefinedWeb

Mixtral 8x7B (2024.01)

Digest: Mixtral 8x7B는 Mistral AI가 발표한 Sparse Mixture of Experts(SMoE) 모델로, 총 46.7B 파라미터 중 토큰당 12.9B만 활성화하여 LLaMA 2-70B와 동등하거나 우수한 성능을 달성한다. 각 Transformer 블록의 FFN을 8개 전문가 네트워크로 교체하고 Top-2 라우터로 선택하는 구조이다. Mistral 7B의 SWA와 GQA를 유지하면서, 추론 속도는 LLaMA 2-70B 대비 6배 빠르다. Mixtral 8x7B-Instruct는 GPT-3.5 Turbo를 대부분의 벤치마크에서 능가하며, Apache 2.0으로 공개되었다.


아키텍처 상세

모델 스펙

항목Mixtral 8x7B
총 파라미터46.7B
활성 파라미터 (토큰당)12.9B
Layers32
d_model4096
Q Heads32
KV Heads8 (GQA)
Head Dim128
전문가 수 / 활성화8 / Top-2
전문가당 FFN Dim14336
Context Length32768
Vocab32,000
Sliding Window4096

아키텍처 핵심 구성요소

구성요소설명
Sparse MoE각 레이어의 FFN을 8개 전문가로 교체, Top-2 라우팅
RouterLinear layer → Softmax → Top-2 선택
GQAMistral 7B와 동일 (KV 8 heads)
SWA윈도우 크기 4096 유지
RoPE회전 위치 임베딩
Pre-RMSNorm표준 Pre-Norm
SwiGLU각 전문가가 독립 SwiGLU FFN

MoE 라우팅 수식

  • : 게이트 네트워크 출력 (8차원 중 Top-2만 비영)
  • : i번째 전문가의 SwiGLU FFN 출력
  • 가중합으로 최종 출력 생성
graph TD
    A["입력 x"] --> B["RMSNorm"]
    B --> C["GQA + SWA + RoPE"]
    C --> D["RMSNorm"]
    D --> E["Router<br/>(Linear → Softmax → Top-2)"]

    E --> F1["Expert 1<br/>SwiGLU FFN"]
    E --> F2["Expert 2<br/>SwiGLU FFN"]
    E -.-> F3["Expert 3~8<br/>(비활성)"]

    F1 --> G["가중합<br/>G₁·E₁(x) + G₂·E₂(x)"]
    F2 --> G
    G --> H["Residual Add"]

사전 학습

학습 데이터

항목
데이터 소스미공개 (인터넷 데이터)
토큰 수미공개
Context32K

학습 하이퍼파라미터

상세 미공개. Mistral 7B 기반 확장.


전문가 분석

논문에서 전문가의 특화(specialization) 패턴을 분석:

  • 도메인별 전문화는 약함: 특정 전문가가 특정 도메인에 완전히 특화되지 않음
  • 구문적 패턴: 특정 전문가가 특정 토큰 유형(숫자, 코드, 영어 텍스트 등)에 더 자주 선택됨
  • 위치 의존성: 레이어에 따라 라우팅 패턴이 달라짐
  • 연속 토큰: 같은 전문가가 연속적으로 선택되는 경향 있음

벤치마크 비교

사전학습 모델

벤치마크Mixtral 8x7BLLaMA 2-70BGPT-3.5Mistral 7B
MMLU (5-shot)70.668.970.060.1
HellaSwag (0-shot)84.485.381.3
WinoGrande77.275.3
ARC-Challenge60.657.455.5
GSM8K (8-shot)58.456.857.135.4
HumanEval (0-shot)40.229.948.130.5
MATH (4-shot)28.413.513.1
MBPP (3-shot)60.747.5

Instruct 모델 (Mixtral 8x7B-Instruct)

벤치마크Mixtral-InstructGPT-3.5 TurboLLaMA 2-70B-Chat
MT-Bench8.308.326.86
MMLU70.670.063.9
GSM8K74.457.156.8
ARC-Challenge70.1

Mixtral-Instruct ≈ GPT-3.5 Turbo: MT-Bench에서 거의 동등, 수학에서 우세


동시대 비교 매트릭스

특성Mixtral 8x7B (2024.01)LLaMA 2-70B (2023.07)GPT-3.5 (2022.11)Mistral 7B (2023.10)
총 파라미터46.7B70B미공개7.3B
활성 파라미터12.9B70B미공개7.3B
MoE✅ (8 experts, Top-2)❌ (Dense)미공개
Context32K4K4K/16K8K
MMLU70.668.970.060.1
추론 속도6× LLaMA 2-70B1× (기준)더 빠름
라이선스Apache 2.0Meta 제한API만Apache 2.0
핵심 기여오픈 MoE 기준점오픈 RLHFRLHF 대화SWA 효율성

한계

  • 메모리 사용량: 총 46.7B 파라미터를 모두 GPU에 로드해야 함 (활성화는 12.9B이지만)
  • 전문가 특화 부족: 이상적 전문가 특화와 거리 있음
  • Load Balancing: 라우팅 불균형 발생 가능 (별도 balancing loss 미언급)
  • 학습 상세 미공개: 재현 불가