Falcon LLM & The RefinedWeb Dataset

Digest: Falcon은 UAE의 TII가 개발한 오픈소스 LLM 시리즈(1B/7B/40B/180B)로, 핵심 기여는 RefinedWeb 데이터셋이다. RefinedWeb은 CommonCrawl에서 **엄격한 필터링(URL 필터링, 문서 품질 분류기, 중복 제거)**으로 추출한 ~5T 토큰 규모의 고품질 웹 전용 데이터로, 큐레이티드 코퍼스(Wikipedia, Books 등) 없이도 동등한 모델 성능을 달성할 수 있음을 증명했다. Falcon-40B는 LLaMA-65B에 필적하는 성능을 보였으며, Multi-Query Attention을 사용하여 추론 효율성을 높였다.

아키텍처 상세

모델 스펙

모델	Params	Layers	Heads	KV Heads	d_model	FFN Dim	Context
Falcon-7B	7.0B	32	71	1 (MQA)	4544	18176	2048
Falcon-40B	40.0B	60	64	8 (GQA)	8192	32768	2048
Falcon-180B	180B	80	64	8 (GQA)	14848	59392	2048

아키텍처 핵심 구성요소

구성요소	설명
Multi-Query Attention (7B)	KV 헤드 1개, 극도로 효율적 추론
GQA (40B/180B)	KV 헤드 8개
Parallel Attention + FFN	PaLM 방식 병렬 실행
Position Encoding	RoPE (ALiBi도 일부 실험)
Normalization	LayerNorm
FFN	GELU activation
Tokenizer	BPE, 65,024 vocab
Bias	없음 (no bias)

RefinedWeb 데이터셋

항목	값
소스	CommonCrawl (2019-2023)
필터링	URL 필터링 → 텍스트 추출 → 언어 ID → 품질 필터링 → 중복 제거
중복 제거	MinHash + LSH (문서 수준), exact substring 중복 제거
최종 크기	~5T 토큰 (공개 600B 토큰 서브셋)
핵심 주장	”웹 데이터만으로 큐레이티드 코퍼스 수준 가능”
증거	RefinedWeb 1.3B 모델 = C4+Books+Wiki 1.3B 모델

벤치마크 비교

벤치마크	Falcon-7B	Falcon-40B	LLaMA-7B	LLaMA-65B	MPT-7B
MMLU (5-shot)	26.2	55.4	35.1	63.4	26.8
HellaSwag	74.1	83.6	76.1	84.2	76.3
ARC-Challenge	47.5	54.5	47.6	—	46.5
TruthfulQA	35.2	39.8	33.1	—	33.4
Open LLM Avg	—	상위 (한때 1위)	—	—	—

동시대 비교 매트릭스

특성	Falcon-40B (2023.06)	LLaMA-65B (2023.02)	MPT-30B (2023.06)
파라미터	40B	65B	30B
학습 토큰	~1.5T (RefinedWeb+)	1.4T	1.0T
Context	2048	2048	8192
Attention	GQA (KV=8)	MHA	MHA
데이터 핵심	웹 데이터 품질	공개 데이터	Mix
라이선스	Apache 2.0	제한적	Apache 2.0
핵심 기여	RefinedWeb 데이터 품질	오픈소스 기반	긴 Context

Juhyeon's Blog

탐색기

Falcon - The RefinedWeb Dataset for Falcon LLM

Falcon LLM & The RefinedWeb Dataset

아키텍처 상세

모델 스펙

아키텍처 핵심 구성요소

RefinedWeb 데이터셋

벤치마크 비교

동시대 비교 매트릭스

그래프 뷰

목차

Properties

백링크