Falcon LLM & The RefinedWeb Dataset

Digest: Falcon은 UAE의 TII가 개발한 오픈소스 LLM 시리즈(1B/7B/40B/180B)로, 핵심 기여는 RefinedWeb 데이터셋이다. RefinedWeb은 CommonCrawl에서 **엄격한 필터링(URL 필터링, 문서 품질 분류기, 중복 제거)**으로 추출한 ~5T 토큰 규모의 고품질 웹 전용 데이터로, 큐레이티드 코퍼스(Wikipedia, Books 등) 없이도 동등한 모델 성능을 달성할 수 있음을 증명했다. Falcon-40B는 LLaMA-65B에 필적하는 성능을 보였으며, Multi-Query Attention을 사용하여 추론 효율성을 높였다.


아키텍처 상세

모델 스펙

모델ParamsLayersHeadsKV Headsd_modelFFN DimContext
Falcon-7B7.0B32711 (MQA)4544181762048
Falcon-40B40.0B60648 (GQA)8192327682048
Falcon-180B180B80648 (GQA)14848593922048

아키텍처 핵심 구성요소

구성요소설명
Multi-Query Attention (7B)KV 헤드 1개, 극도로 효율적 추론
GQA (40B/180B)KV 헤드 8개
Parallel Attention + FFNPaLM 방식 병렬 실행
Position EncodingRoPE (ALiBi도 일부 실험)
NormalizationLayerNorm
FFNGELU activation
TokenizerBPE, 65,024 vocab
Bias없음 (no bias)

RefinedWeb 데이터셋

항목
소스CommonCrawl (2019-2023)
필터링URL 필터링 → 텍스트 추출 → 언어 ID → 품질 필터링 → 중복 제거
중복 제거MinHash + LSH (문서 수준), exact substring 중복 제거
최종 크기~5T 토큰 (공개 600B 토큰 서브셋)
핵심 주장”웹 데이터만으로 큐레이티드 코퍼스 수준 가능”
증거RefinedWeb 1.3B 모델 = C4+Books+Wiki 1.3B 모델

벤치마크 비교

벤치마크Falcon-7BFalcon-40BLLaMA-7BLLaMA-65BMPT-7B
MMLU (5-shot)26.255.435.163.426.8
HellaSwag74.183.676.184.276.3
ARC-Challenge47.554.547.646.5
TruthfulQA35.239.833.133.4
Open LLM Avg상위 (한때 1위)

동시대 비교 매트릭스

특성Falcon-40B (2023.06)LLaMA-65B (2023.02)MPT-30B (2023.06)
파라미터40B65B30B
학습 토큰~1.5T (RefinedWeb+)1.4T1.0T
Context204820488192
AttentionGQA (KV=8)MHAMHA
데이터 핵심웹 데이터 품질공개 데이터Mix
라이선스Apache 2.0제한적Apache 2.0
핵심 기여RefinedWeb 데이터 품질오픈소스 기반긴 Context