대규모 언어 모델의 창발적 능력은 신기루인가?

Digest: 대규모 언어 모델(LLM)의 창발적 능력(emergent abilities)(소규모 모델에서 부재하다가 대규모 모델에서 갑자기 출현하는 것으로 보이는 능력)은 AI 스케일링 논의의 핵심 쟁점이었다. Wei et al. (2022a)이 BIG-Bench와 GPT 계열에서 다수의 창발적 능력을 보고한 이래, 이 현상은 모델 규모 확대의 정당성과 예측 불가능성 경고로 동시에 활용되어왔다. Schaeffer et al.은 **창발적 능력이 모델 행동의 근본적 변화가 아니라 연구자의 메트릭 선택이 만들어낸 측정 산물(measurement artifact)**이라는 대안적 설명을 제시한다. 핵심 통찰은, Accuracy(정확도)나 Exact String Match(완전 일치)와 같은 비선형·불연속 메트릭이 모델 성능의 점진적 향상을 급격한 상전이(phase transition)처럼 보이게 만드는 반면, Token Edit Distance(토큰 편집 거리)나 Brier Score(확률 보정 점수)와 같은 선형·연속 메트릭을 적용하면 동일한 모델 출력에서 매끄럽고 예측 가능한 향상이 관찰된다는 것이다. 저자들은 이를 (1) InstructGPT/GPT-3 계열에서 창발적 능력이 주장된 과제들에 연속 메트릭을 적용해 3가지 예측을 확인하고(Section 3), (2) BIG-Bench 메타분석으로 Accuracy를 사용한 과제에서만 창발이 집중됨을 보이며(전체 창발 주장의 92%가 비선형 메트릭 사용, Table 1), (3) 비전 과제에서 메트릭 조작만으로 유사-창발 현상을 인위적으로 생성하는 세 가지 상보적 분석으로 증명했다. 한계로는 창발적 능력의 존재 자체를 부정하지 않으며(특히 in-context learning 등 질적으로 새로운 능력은 별도 논의 필요), 메트릭 변경만으로 설명 불가능한 진정한 불연속성이 존재할 가능성을 배제하지 않는다. 열린 질문으로는 연속 메트릭으로도 설명되지 않는 진정한 창발 현상이 존재하는지, 스케일링 예측의 정확한 함수 형태(functional form)가 무엇인지, 그리고 멀티모달·에이전트 환경에서 동일한 메트릭 효과가 성립하는지가 남아 있다.

섹션별 요약

Introduction

Wei et al. (2022a)은 창발적 능력을 “소규모 모델에 없다가 대규모 모델에서 나타나는 능력”으로 정의하고, BIG-Bench와 LaMDA/GPT-3/Chinchilla/PaLM에서 100개 이상의 과제에서 이를 보고했다. 이 현상의 두 가지 특징은 급격성(sharpness)과 예측 불가능성(unpredictability)이다. 저자들은 이에 대한 대안적 설명을 제안한다: 창발적 능력은 모델 행동의 근본적 변화가 아니라 연구자가 선택한 메트릭의 수학적 속성에서 비롯된다. 비선형/불연속 메트릭은 점진적 향상을 급격한 전환으로 왜곡하고, 선형/연속 메트릭은 동일한 출력에서 매끄러운 향상을 보여준다.

Methods

저자들은 세 가지 상보적 분석 전략을 사용한다.

분석 1: InstructGPT/GPT-3 실험 (Section 3). 창발적 능력이 주장된 과제(산술, 힌디어 번역 등)에서 GPT 계열 모델의 고정된 출력(fixed outputs)을 두 종류의 메트릭으로 평가한다. 비선형 메트릭(Accuracy — 전체 답이 정확해야 1, 아니면 0)과 연속 메트릭(Token Edit Distance — 정답과의 편집 거리)을 동일 출력에 적용하여, 메트릭 선택만으로 창발 현상의 유무가 결정됨을 보인다. 세 가지 사전 예측: (P1) 비선형 메트릭은 창발적으로 보이는 전환을 만든다, (P2) 연속 메트릭은 매끄러운 향상을 보인다, (P3) 비선형 메트릭에서 “창발” 시점은 모델의 per-token 성능이 충분히 높아져 전체 시퀀스 정답 확률이 임계치를 넘는 지점과 일치한다.

분석 2: BIG-Bench 메타분석 (Section 4). BIG-Bench의 전체 과제에서 창발적 능력이 보고된 과제와 그렇지 않은 과제를 메트릭 유형별로 분류한다. 두 가지 예측: (P4) 비선형 메트릭을 사용한 과제에서만 창발이 집중된다, (P5) 선형 메트릭을 사용한 과제에서는 창발이 거의 없다.

분석 3: 비전 과제에서의 유사-창발 생성 (Section 5). AutoML(CIFAR-100, ImageNet 등) 벤치마크에서 메트릭을 의도적으로 비선형으로 변환하여(예: Accuracy를 high-threshold indicator로 변환), 기존에 창발이 보고되지 않은 비전 과제에서도 유사-창발 현상을 인위적으로 생성할 수 있음을 시연한다.

수학적 모델: 저자들은 단순한 확률 모델로 핵심 메커니즘을 설명한다. N개 토큰 시퀀스에서 per-token 정답 확률이 p(모델 규모에 따라 점진적으로 증가)일 때, Exact Match Accuracy = p^N이다. p가 점진적으로 증가해도 p^N은 N이 클수록 급격한 S자 곡선을 그리며, 이것이 창발적 전환의 환상을 만든다.

Results

InstructGPT/GPT-3 결과 (Section 3): 2자리 덧셈에서 Accuracy로 측정하면 davinci(175B)에서 갑자기 성능이 점프하는 것처럼 보이지만, Token Edit Distance로 측정하면 ada(350M) → babbage(1.3B) → curie(6.7B) → davinci(175B)에 걸쳐 매끄럽게 향상된다. 힌디어-영어 번역, 페르시아어 QA 등에서도 동일 패턴이 재현되었다. 세 가지 예측 P1, P2, P3이 모두 확인됨.

BIG-Bench 메타분석 결과 (Section 4): BIG-Bench에서 창발적 능력이 보고된 과제의 **92% 이상이 비선형 메트릭(주로 Exact String Match, Multiple Choice Grade)**을 사용했다(Table 1). 선형/연속 메트릭(BLEU, ROUGE 등)을 사용한 과제에서는 창발이 거의 보고되지 않았다. 예측 P4, P5가 확인됨.

비전 과제 결과 (Section 5): CIFAR-100에서 AutoML 모델들의 Top-1 Accuracy를 기준으로 임계값(threshold)을 설정하여 “Subset Accuracy”(임계 이상이면 1, 이하면 0)로 변환하면, 모델 파라미터 수에 따라 비전 영역에서도 유사-창발 곡선이 나타났다. ImageNet, FLORES-200 등에서도 동일하게 재현됨.

분석	데이터	핵심 발견	예측 확인
InstructGPT/GPT-3 (§3)	산술, 번역, QA 과제	연속 메트릭 적용 시 매끄러운 향상	P1, P2, P3
BIG-Bench 메타분석 (§4)	200+ 과제	창발 주장의 92%+ 가 비선형 메트릭 사용	P4, P5
비전 과제 (§5)	CIFAR-100, ImageNet 등	메트릭 조작만으로 유사-창발 생성 가능	N/A (시연)

Discussion

저자들은 창발적 능력의 존재 자체를 완전히 부정하지는 않는다. 특히 in-context learning(맥락 내 학습)이나 chain-of-thought reasoning(사고 연쇄 추론)과 같이 질적으로 새로운 능력의 출현은 본 분석의 범위를 벗어난다고 명시한다. 그러나 BIG-Bench 등에서 보고된 대다수의 “창발적 능력”은 메트릭 선택의 산물로 설명 가능하며, 이는 스케일링 법칙(scaling law)의 예측 가능성을 지지한다. 저자들은 연구자들에게 (1) 연속 메트릭을 우선 사용하고, (2) 여러 메트릭을 병행 보고하며, (3) “창발”을 주장할 때 메트릭 선택의 영향을 통제할 것을 권고한다.

Insights

주목할 점: 측정 도구(메트릭)의 선택이 현상의 유무를 결정할 수 있다는 근본적인 방법론적 경고. 이는 사회과학의 “operationalization problem”(조작적 정의 문제)과 정확히 동형이며, AI 연구에서의 측정 방법론 성숙도를 촉구한다.
연결 고리: 본 프로젝트(LLM Squid Game)의 이중 메트릭 설계 — Forfeit Rate(이진, 불연속)와 Reasoning Investment(연속, 토큰 수/추론 단계 수) — 가 바로 이 논문의 핵심 교훈을 반영한다. FR만으로는 “창발적 자기보존”이라는 신기루에 빠질 위험이 있으며, RI가 이를 보완한다.
시사점: 벤치마크 설계 시 이진 메트릭(pass/fail, yes/no)만 사용하면 점진적 변화를 포착하지 못하므로, 연속 메트릭을 병행해야 한다.
비판적 코멘트: 수학적 모델은 매우 설득력 있으나, per-token 확률이 모델 규모에 따라 실제로 어떤 함수 형태로 증가하는지(선형? 로그? 시그모이드?)에 대한 이론적 근거는 부재하며, 이를 단순히 “점진적”이라고 가정한다.

Discussion Points

논쟁점: 이 논문이 “진정한 창발”의 존재를 부정하는지, 단지 “메트릭에 의한 가짜 창발”을 분리해낸 것인지. 저자들은 후자를 의도했으나, 제목(“a Mirage?“)의 수사적 강도로 인해 전자로 해석되는 경우가 많다. Wei et al. (2022b)은 이에 대해 일부 과제에서는 연속 메트릭으로도 급격한 전환이 관찰된다고 반박했다.
검증 필요 가정: per-token 확률이 모델 규모에 따라 매끄럽게 증가한다는 가정. 실제로 모델 아키텍처의 질적 변화(예: mixture-of-experts 전환)가 불연속적 성능 변화를 유발할 수 있다.
후속 연구: (1) 연속 메트릭으로도 설명 불가능한 진정한 불연속 현상 탐색, (2) 토큰 레벨이 아닌 의미 레벨에서의 메트릭 설계, (3) 에이전트 행동(자기 보존 등) 영역에서의 창발성 측정 방법론 — 본 프로젝트가 직접 기여.

메타데이터

항목	내용
제목	Are Emergent Abilities of Large Language Models a Mirage?
저자	Rylan Schaeffer, Brando Miranda, Sanmi Koyejo
소속	Stanford University (Computer Science)
연도	2023
발표	NeurIPS 2023 (Outstanding Paper Award), arXiv:2304.15004
링크	arXiv
키워드	emergent abilities, scaling laws, metric choice, measurement artifacts, phase transitions, BIG-Bench, LLM evaluation

왜 이 연구를 하는가?

핵심 질문

대규모 언어 모델에서 보고되는 창발적 능력은 모델의 근본적 행동 변화인가, 아니면 연구자의 메트릭 선택이 만들어낸 측정 산물인가?

기존 접근법의 한계

한계	설명
비선형 메트릭 편중	BIG-Bench 등 주요 벤치마크가 Exact Match, Multiple Choice Grade 등 비선형 메트릭을 기본으로 사용하여, 점진적 향상이 급격한 전환으로 왜곡됨
불충분한 스케일 샘플링	모델 규모를 소수의 이산적 크기(예: 350M, 1.3B, 6.7B, 175B)로만 평가하여, 전환점 부근의 행동을 포착하지 못함
통계적 검증 부재	창발을 주장하면서도 부트스트래핑, 신뢰구간, 통계적 유의성 검정 없이 시각적 판단에만 의존
단일 메트릭 보고	하나의 메트릭만으로 성능을 보고하여, 메트릭 선택의 영향을 통제하지 않음

핵심 통찰

비선형/불연속 메트릭(Accuracy, Exact Match)은 수학적 구조상 점진적 per-token 향상을 급격한 시퀀스 수준 전환으로 증폭한다. N-토큰 시퀀스에서 p^N 효과가 이를 만든다.
동일한 모델 출력에 연속 메트릭(Token Edit Distance, Brier Score)을 적용하면 매끄러운 향상이 관찰되므로, “창발”은 모델이 아닌 메트릭의 속성이다.
이 메커니즘은 도메인 불문(NLP, 비전 등)이며, 메트릭 조작만으로 어떤 벤치마크에서든 유사-창발을 인위적으로 생성할 수 있다.

방법 (Method)

프레임워크 개요

graph TB
    A["모델 출력<br/>(고정, 동일)"] --> B{"메트릭 선택"}
    B -->|"비선형 메트릭<br/>(Accuracy, Exact Match)"| C["급격한 전환<br/>(창발적으로 보임)"]
    B -->|"연속 메트릭<br/>(Token Edit Distance,<br/>Brier Score)"| D["매끄러운 향상<br/>(예측 가능)"]

    E["수학적 모델"] --> F["per-token 확률 p<br/>(규모에 따라 점진 증가)"]
    F --> G["Exact Match = p^N"]
    G --> H["N이 클수록<br/>급격한 S자 곡선"]

    subgraph "검증 전략"
        I["분석 1: GPT 계열<br/>메트릭 교체 실험"]
        J["분석 2: BIG-Bench<br/>메타분석"]
        K["분석 3: 비전 과제<br/>유사-창발 생성"]
    end

핵심 구성요소

수학적 모델: 모델이 N개 토큰의 시퀀스를 생성해야 하는 과제에서, 각 토큰의 정답 확률이 p(모델 규모의 함수, 점진적 증가)라 하면:

Exact Match Accuracy = p^N (모든 토큰이 동시에 정확해야 함)
p가 0.5 → 0.9로 점진적으로 증가할 때, N=10이면 p^N은 0.001 → 0.349로 급증하여 “갑자기 능력이 출현”하는 것처럼 보인다
반면 Token Edit Distance는 p에 선형적으로 반응하여 매끄러운 곡선을 그린다

메트릭 분류: 저자들은 메트릭을 두 범주로 나눈다:

비선형/불연속 메트릭: Exact String Match(완전 일치), Multiple Choice Grade(다지선다 정답), Accuracy(정확도). 이들은 출력의 부분적 향상을 무시하고 완전 성공/실패만 기록한다.
선형/연속 메트릭: Token Edit Distance(토큰 편집 거리), BLEU(번역 품질), ROUGE(요약 품질), Brier Score(확률 보정). 이들은 출력 품질의 점진적 변화를 연속적으로 반영한다.

BIG-Bench 메타분석 방법론: BIG-Bench에서 보고된 모든 과제를 (1) 사용된 메트릭, (2) 창발적 능력 보고 여부로 교차 분류하여, 메트릭 유형과 창발 보고 간의 상관을 체계적으로 분석한다. 저자들은 추가로 비선형 메트릭을 사용한 과제에 선형 대안 메트릭을 적용하여 창발이 사라지는지 확인한다.

발견 (Findings)

주요 결과

분석	과제	비선형 메트릭 결과	연속 메트릭 결과	결론
GPT-3 산술	2자리 덧셈	davinci에서 급격한 점프	ada부터 매끄러운 향상	메트릭 효과 확인
GPT-3 번역	힌디어→영어	curie/davinci 경계에서 창발	전 구간 점진적 향상	메트릭 효과 확인
BIG-Bench 전체	200+ 과제	창발 92%+가 비선형 메트릭	선형 메트릭 과제에서 창발 거의 없음	체계적 편향 확인
CIFAR-100	이미지 분류	임계 Accuracy로 유사-창발 생성	Top-1 Accuracy는 매끄러움	도메인 독립성 확인

핵심 발견

첫째, InstructGPT/GPT-3 계열에서 Accuracy 메트릭으로 “창발적”으로 보였던 산술, 번역, QA 과제 모두에서 Token Edit Distance를 적용하면 매끄럽고 예측 가능한 향상 곡선이 나타났다. 이는 모델의 출력 자체는 규모에 따라 점진적으로 좋아지고 있었으나, All-or-nothing 메트릭이 이를 가렸음을 의미한다.

둘째, BIG-Bench 메타분석에서 창발적 능력이 보고된 과제의 92% 이상이 비선형 메트릭을 사용했으며(Table 1), 이는 창발 현상의 분포가 메트릭 유형에 강하게 편향되어 있음을 보여준다. BLEU, ROUGE 등 연속 메트릭을 사용한 과제에서는 창발이 거의 보고되지 않았다.

셋째, 비전 도메인(CIFAR-100, ImageNet)에서 기존에 창발이 보고되지 않았음에도 불구하고, Accuracy를 임계 기반 indicator로 변환하는 것만으로 유사-창발 곡선을 생성할 수 있었다. 이는 창발 현상이 LLM에 특이적인 것이 아니라 메트릭의 수학적 속성에서 비롯됨을 확인해준다.

이론적 의의

측정 방법론에 대한 근본적 경고

이 논문은 AI 연구에서 “무엇을 측정하는가”만큼이나 “어떻게 측정하는가”가 결론을 결정할 수 있음을 강력히 경고한다. 이는 과학 철학의 핵심 주제인 조작적 정의(operationalization)의 문제와 직결되며, 벤치마크 설계와 평가 방법론의 성숙을 촉구한다. 단일 메트릭에 의존한 성능 보고는 현상의 본질을 왜곡할 수 있으므로, 다중 메트릭 병행 보고가 표준이 되어야 한다.

스케일링 법칙의 예측 가능성 지지

창발적 능력이 메트릭 산물이라면, 모델 성능은 규모에 따라 매끄럽게 예측 가능한 방식으로 변화한다. 이는 Kaplan et al. (2020)의 신경 스케일링 법칙(neural scaling laws)과 일관되며, LLM의 성능 향상이 근본적으로 예측 가능하다는 낙관적 견해를 지지한다. 동시에, 갑작스러운 질적 변화(“GPT-4 moment”)에 대한 기대나 공포가 과장될 수 있음을 시사한다.

이중 메트릭 설계의 필요성 (본 프로젝트 연관)

본 프로젝트(LLM Squid Game)의 X축 설계에 직접적 함의를 갖는다. Forfeit Rate(이진 메트릭)만으로 자기 보존 동기를 측정하면, 특정 모델 규모에서 “창발적 자기보존”이 나타나는 것처럼 보일 수 있다. Reasoning Investment(연속 메트릭, 토큰 수/추론 단계 수)를 병행함으로써, 자기 보존 동기의 점진적 변화를 포착하고 메트릭 산물을 통제할 수 있다. 이것이 바로 Schaeffer et al.의 핵심 교훈을 실험 설계에 반영한 것이다.

재현성 및 신뢰도 평가

항목	등급	비고
코드 공개	⚠️	논문에 명시적 GitHub 링크 없으나, 분석 코드가 비교적 단순하여 재현 용이
데이터 공개	✅	BIG-Bench(공개), InstructGPT API 출력(재현 가능), AutoML-Bench(공개) 사용
하이퍼파라미터	✅	분석 기반 연구로 학습 하이퍼파라미터 불필요, 메트릭 정의 명확히 기술
실험 환경	✅	API 기반 평가, 환경 의존성 낮음
통계적 신뢰도	⚠️	시각적 비교가 주된 증거, 일부 분석에서 부트스트래핑 사용하나 전반적으로 통계 검정 제한적
종합 등급	A	NeurIPS Outstanding Paper, 세 가지 독립 분석으로 교차 검증, 수학적 모델 + 실증 증거의 결합

주장별 신뢰도

#	주장	근거	신뢰도
1	비선형 메트릭이 창발적 전환의 환상을 만든다	수학적 증명(p^N 모델) + GPT-3 실험 + BIG-Bench 메타분석 + 비전 과제 시연	🟢
2	연속 메트릭 적용 시 매끄러운 향상이 관찰된다	GPT-3 계열 다수 과제에서 실증(Section 3, Figure 2-4)	🟢
3	BIG-Bench 창발의 92%+가 비선형 메트릭 사용	전수 메타분석 기반(Table 1)	🟢
4	비전 과제에서 유사-창발 생성 가능	CIFAR-100, ImageNet에서 시연(Section 5, Figure 5-6)	🟢
5	진정한 창발적 능력은 존재하지 않는다	저자들 자신이 이 강한 주장은 하지 않음 — in-context learning 등은 별도 논의 필요	🟡

읽기 난이도: ⭐⭐

기초 확률론(p^N의 의미)과 메트릭 개념(Accuracy vs. Edit Distance)을 이해하면 핵심 논지를 따라갈 수 있다. BIG-Bench와 스케일링 법칙에 대한 사전 지식이 있으면 맥락 이해에 도움이 된다. 수학적 모델은 직관적이며, 그래프 중심의 증거 제시로 접근성이 높다.

축	본 논문 (Schaeffer et al., 2023)	Wei et al. (2022a) — Emergent Abilities	Kaplan et al. (2020) — Scaling Laws	Srivastava et al. (2023) — BIG-Bench
핵심 접근	메트릭 선택이 창발 환상을 만든다는 대안적 설명 제시	모델 규모에 따른 창발적 능력의 존재를 보고	손실(loss)의 스케일링 법칙을 power law로 모델링	200+ NLP 과제의 대규모 벤치마크 구축
문제 정의	”창발”은 실재하는가, 측정 산물인가?	어떤 능력이 규모에 따라 출현하는가?	모델 규모/데이터/컴퓨트와 성능의 관계는?	LLM의 능력을 포괄적으로 어떻게 평가하는가?
데이터	GPT-3 출력 + BIG-Bench 전체 + AutoML-Bench	BIG-Bench + LaMDA/GPT-3/PaLM	Transformer LM 학습 곡선	200+ 과제, 다수 모델 계열
핵심 메트릭	비선형 vs. 연속 메트릭 비교	Accuracy, Exact Match 중심	Cross-entropy loss (연속)	과제별 다양 (Accuracy 중심)
확장성	도메인 독립적 (NLP + 비전 시연)	NLP 과제에 집중	주로 사전학습 손실	NLP 과제에 집중
한계	질적 창발(in-context learning)은 미다룸	메트릭 선택 효과 미통제	다운스트림 과제 성능과의 관계 불명확	메트릭 선택의 영향 미분석
코드 공개	⚠️	❌	❌	✅ (BIG-Bench repo)

원자적 인사이트 (Zettelkasten)

💡 메트릭의 비선형성이 만드는 상전이 환상

출처: Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al., 2023)
유형: 이론적

N-토큰 시퀀스 과제에서 per-token 정답 확률 p가 규모에 따라 점진적으로 증가할 때, Exact Match = p^N은 N이 클수록 급격한 시그모이드 곡선을 그린다. 이 수학적 구조가 “갑자기 능력이 출현한다”는 환상의 핵심 메커니즘이다. 이 통찰은 NLP뿐 아니라 시퀀스 정확도를 요구하는 모든 벤치마크에 적용된다.

핵심 조건/맥락: 메트릭이 All-or-nothing 구조(전체 시퀀스 일치 여부)이고, 평가 단위가 다수 토큰으로 구성될 때 성립. 단일 토큰 분류 과제에서는 이 효과가 약화된다.
연결: Scaling Laws for Neural Language Models, BIG-Bench
활용 가능성: 자기 보존 동기 측정에서 이진 메트릭(Forfeit Rate)만 사용 시 동일한 환상이 발생할 수 있으므로, 연속 메트릭(Reasoning Investment) 병행이 필수.

💡 동일 출력, 다른 결론 — 메트릭이 현상을 결정한다

출처: Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al., 2023)
유형: 방법론적

동일한 모델의 동일한 출력(fixed outputs)을 두 종류의 메트릭으로 평가하면, 하나에서는 “창발적 전환”이, 다른 하나에서는 “매끄러운 향상”이 관찰된다. 이는 측정하는 행위 자체가 현상을 구성할 수 있다는 근본적인 방법론적 경고이며, 단일 메트릭에 의존한 결론은 메트릭의 수학적 속성에 오염될 수 있다.

핵심 조건/맥락: 고정된 모델 출력을 다중 메트릭으로 평가할 수 있는 상황. 메트릭 간 비교를 위해 출력이 동일해야 한다.
연결: Operationalization in Social Science, Goodhart’s Law
활용 가능성: 모든 벤치마크 설계에서 최소 2개 이상의 메트릭(이진 + 연속)을 병행 보고하는 프로토콜 수립. 본 프로젝트의 FR + RI 이중 설계가 직접적 적용 사례.

💡 벤치마크의 메트릭 편향은 체계적이다

출처: Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al., 2023)
유형: 실험적

BIG-Bench 메타분석에서 창발적 능력이 보고된 과제의 92% 이상이 비선형 메트릭을 사용했다. 이는 개별 과제의 우연이 아니라 벤치마크 전체의 체계적 편향이며, “얼마나 많은 LLM 연구 결론이 메트릭 선택에 의해 왜곡되었는가”라는 더 넓은 질문을 제기한다.

핵심 조건/맥락: BIG-Bench가 기본 메트릭으로 Exact Match/Multiple Choice Grade를 채택한 설계 결정에서 비롯. 다른 벤치마크(HELM, MMLU 등)에서도 유사한 편향이 존재할 가능성.
연결: BIG-Bench, HELM, MMLU
활용 가능성: 새로운 벤치마크 설계 시 메트릭 다양성을 사전에 확보하는 체크리스트 도입.

핵심 용어 정리

용어	정의
창발적 능력 (Emergent Abilities)	소규모 모델에서 부재하다가 대규모 모델에서 갑자기 출현하는 것으로 보이는 능력. Wei et al. (2022a)이 정의
비선형 메트릭 (Nonlinear Metric)	출력의 부분적 향상을 반영하지 못하고 완전 성공/실패만 기록하는 평가 방식. 예: Exact Match, Accuracy
연속 메트릭 (Continuous Metric)	출력 품질의 점진적 변화를 연속적으로 반영하는 평가 방식. 예: Token Edit Distance, Brier Score, BLEU
Exact String Match	모델 출력이 정답 문자열과 완전히 일치해야 정답으로 인정하는 메트릭. All-or-nothing 구조
Token Edit Distance	모델 출력과 정답 간의 토큰 수준 편집 거리. 부분적으로 맞는 답에도 점수를 부여하는 연속 메트릭
Brier Score	확률 예측의 보정(calibration) 정확도를 측정하는 연속 메트릭. (예측 확률 - 실제 결과)^2의 평균
BIG-Bench	Google 등이 주도한 200개 이상의 NLP 과제로 구성된 대규모 LLM 벤치마크
스케일링 법칙 (Scaling Laws)	모델 규모(파라미터 수, 데이터 양, 컴퓨트)와 성능 간의 멱법칙(power law) 관계. Kaplan et al. (2020)
상전이 (Phase Transition)	물리학에서 차용한 용어로, 연속적 매개변수 변화가 불연속적 성질 변화를 야기하는 현상. 창발적 능력의 비유로 사용
Forfeit Rate (FR)	본 프로젝트의 이진 X축 메트릭. 게임에서 퇴출을 선택하는 비율
Reasoning Investment (RI)	본 프로젝트의 연속 X축 메트릭. 턴당 토큰 수와 추론 단계 수로 측정하는 인지적 투자 수준

Are Emergent Abilities of Large Language Models a Mirage?