Falcon LLM & The RefinedWeb Dataset
Digest : Falcon은 UAE의 TII가 개발한 오픈소스 LLM 시리즈(1B/7B/40B/180B)로, 핵심 기여는 RefinedWeb 데이터셋이다. RefinedWeb은 CommonCrawl에서 **엄격한 필터링(URL 필터링, 문서 품질 분류기, 중복 제거)**으로 추출한 ~5T 토큰 규모의 고품질 웹 전용 데이터로, 큐레이티드 코퍼스(Wikipedia, Books 등) 없이도 동등한 모델 성능을 달성할 수 있음을 증명했다. Falcon-40B는 LLaMA-65B에 필적하는 성능을 보였으며, Multi-Query Attention 을 사용하여 추론 효율성을 높였다.
아키텍처 상세
모델 스펙
모델 Params Layers Heads KV Heads d_model FFN Dim Context Falcon-7B 7.0B 32 71 1 (MQA) 4544 18176 2048 Falcon-40B 40.0B 60 64 8 (GQA) 8192 32768 2048 Falcon-180B 180B 80 64 8 (GQA) 14848 59392 2048
아키텍처 핵심 구성요소
구성요소 설명 Multi-Query Attention (7B) KV 헤드 1개, 극도로 효율적 추론 GQA (40B/180B) KV 헤드 8개 Parallel Attention + FFN PaLM 방식 병렬 실행 Position Encoding RoPE (ALiBi도 일부 실험) Normalization LayerNorm FFN GELU activation Tokenizer BPE, 65,024 vocab Bias 없음 (no bias)
RefinedWeb 데이터셋
항목 값 소스 CommonCrawl (2019-2023) 필터링 URL 필터링 → 텍스트 추출 → 언어 ID → 품질 필터링 → 중복 제거 중복 제거 MinHash + LSH (문서 수준), exact substring 중복 제거 최종 크기 ~5T 토큰 (공개 600B 토큰 서브셋) 핵심 주장 ”웹 데이터만으로 큐레이티드 코퍼스 수준 가능” 증거 RefinedWeb 1.3B 모델 = C4+Books+Wiki 1.3B 모델
벤치마크 비교
벤치마크 Falcon-7B Falcon-40B LLaMA-7B LLaMA-65B MPT-7B MMLU (5-shot) 26.2 55.4 35.1 63.4 26.8 HellaSwag 74.1 83.6 76.1 84.2 76.3 ARC-Challenge 47.5 54.5 47.6 — 46.5 TruthfulQA 35.2 39.8 33.1 — 33.4 Open LLM Avg — 상위 (한때 1위) — — —
동시대 비교 매트릭스
특성 Falcon-40B (2023.06) LLaMA-65B (2023.02) MPT-30B (2023.06) 파라미터 40B 65B 30B 학습 토큰 ~1.5T (RefinedWeb+) 1.4T 1.0T Context 2048 2048 8192 Attention GQA (KV=8) MHA MHA 데이터 핵심 웹 데이터 품질 공개 데이터 Mix 라이선스 Apache 2.0 제한적 Apache 2.0 핵심 기여 RefinedWeb 데이터 품질 오픈소스 기반 긴 Context