Digest: Google의 BIG-Bench는 204개 과제로 구성된 대규모 벤치마크이지만, 대부분의 과제가 평균적인 인간 평가자보다 이미 높은 성능을 보여 변별력이 낮다. Stanford/Google 연구팀은 BIG-Bench에서 언어모델이 인간 평가자보다 뒤처지는 23개 최고 난이도 과제만 선별한 **BBH(BIG-Bench Hard)**를 제안했다. 핵심 통찰은 Chain-of-Thought(CoT) 프롬프팅이 이 도전적 과제들에서 극적인 성능 향상을 보인다는 것이다. Codex + CoT가 23개 태스크 중 17개에서 인간 평가자를 초과했으며, 평균 점수가 기존 프롬프팅 대비 +18%p 향상되었다 (Table 1).
메타데이터
항목
내용
제목
Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
저자
Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc Le, Ed Chi, Denny Zhou, Jason Wei
Input: "not ( ( not not True ) ) is"
Target: "False"
CoT: "not not True = True, so not(True) = False"
예시 2: Tracking Shuffled Objects
Input: "Alice, Bob, and Claire are playing a game.
Alice has a red ball, Bob has a blue ball, Claire has a green ball.
Alice and Bob swap. Then Bob and Claire swap.
What does Bob have?"
Target: "green ball"
CoT: "초기: A=red, B=blue, C=green.
A↔B 후: A=blue, B=red, C=green.
B↔C 후: A=blue, B=green, C=red.
Bob has green ball."
예시 3: Navigate
Input: "If you follow these instructions, do you return to
the starting point? Turn left. Take 3 steps. Turn right.
Take 3 steps. Turn right. Take 3 steps. Turn left.
Take 3 steps."
Target: "No"
왜 이 연구를 하는가?
핵심 질문
BIG-Bench의 도전적 과제에서 CoT 프롬프팅이 LLM 성능을 인간 수준으로 끌어올릴 수 있는가?
기존 접근법의 한계
한계
설명
BIG-Bench 포화
204개 중 대부분 이미 인간 수준 초과
표준 프롬프팅 한계
few-shot으로는 다단계 추론 문제 해결 어려움
CoT의 범위 미확인
CoT가 어떤 유형의 과제에 효과적인지 체계적 분석 부재
핵심 통찰
LLM이 여전히 어려워하는 과제만 선별하여 CoT의 효과를 분석하면, CoT가 효과적인 과제 유형(논리, 수학, 추적)과 그렇지 않은 유형(언어 유희, 풍자)을 구분할 수 있다.
방법 (Method)
프레임워크 개요
graph TB
A["BIG-Bench 204 태스크"] --> B["LM < Human인<br/>23개 태스크 선별"]
B --> C["BBH 데이터셋"]
C --> D["Standard Prompting<br/>(few-shot, 답만)"]
C --> E["CoT Prompting<br/>(few-shot, 추론과정+답)"]
D --> F["성능 비교"]
E --> F
F --> G["태스크별 CoT 효과 분석"]
발견 (Findings)
주요 결과 (평균 정확도)
설정
InstructGPT
Codex
PaLM
Standard (few-shot)
38.0%
48.7%
—
CoT (few-shot)
49.1%
67.2%
—
개선폭
+11.1%p
+18.5%p
—
인간 평가자
—
—
67.1%
(Table 1)
핵심 발견
CoT의 극적 효과: Codex + CoT가 23개 중 17개에서 인간 평가자 초과 (Table 1)
논리/수학에서 최대 효과: Boolean Expressions, Navigate 등에서 +30%p 이상 향상
언어/상식에서 한계: Snarks, Ruin Names 등 언어 유희에서는 CoT 효과 미미
모델 크기와 CoT: 소형 모델에서는 CoT가 오히려 성능을 떨어뜨림 (inverse scaling)
이론적 의의
CoT 효과의 체계적 분석
BBH는 CoT가 효과적인 과제의 특성을 명확히 했다: 단계적 분해가 가능한 논리/수학 문제에서 최대 효과, 직관이나 세계지식이 필요한 과제에서는 미미. 이는 이후 CoT 연구의 방향을 설정하는 데 기여했다.