BIG-Bench Hard: 도전적 과제에서의 Chain-of-Thought 프롬프팅

Digest: Google의 BIG-Bench는 204개 과제로 구성된 대규모 벤치마크이지만, 대부분의 과제가 평균적인 인간 평가자보다 이미 높은 성능을 보여 변별력이 낮다. Stanford/Google 연구팀은 BIG-Bench에서 언어모델이 인간 평가자보다 뒤처지는 23개 최고 난이도 과제만 선별한 **BBH(BIG-Bench Hard)**를 제안했다. 핵심 통찰은 Chain-of-Thought(CoT) 프롬프팅이 이 도전적 과제들에서 극적인 성능 향상을 보인다는 것이다. Codex + CoT가 23개 태스크 중 17개에서 인간 평가자를 초과했으며, 평균 점수가 기존 프롬프팅 대비 +18%p 향상되었다 (Table 1).

메타데이터

항목	내용
제목	Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
저자	Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc Le, Ed Chi, Denny Zhou, Jason Wei
소속	Stanford University, Google Research
연도	2022
발표	ACL 2023 Findings, arXiv:2210.09261
링크	arXiv, GitHub
키워드	BBH, BIG-Bench Hard, chain-of-thought, reasoning, challenging tasks

데이터셋 구성

규모 및 분할

항목	내용
태스크 수	23개
태스크당 문제 수	50-250개 (태스크별 상이)
총 문제 수	~6,511개
형식	자유형/선다형 혼합
CoT 예시	태스크당 3개 수작업 CoT 예시 제공

23개 태스크 목록

#	태스크	유형	설명
1	Boolean Expressions	논리	불리언 식 평가
2	Causal Judgement	인과	인과관계 판단
3	Date Understanding	시간	날짜 추론
4	Disambiguation QA	언어	모호성 해소
5	Dyck Languages	형식	괄호 매칭
6	Formal Fallacies	논리	논리적 오류 판별
7	Geometric Shapes	공간	기하 도형 추론
8	Hyperbaton	언어	형용사 순서 판단
9	Logical Deduction (3/5/7)	논리	순서 추론
10	Movie Recommendation	상식	영화 추천
11	Multistep Arithmetic	수학	다단계 산술
12	Navigate	공간	방향 추적
13	Object Counting	수학	개체 수 세기
14	Penguins in a Table	표	표 데이터 추론
15	Reasoning about Colored Objects	추론	색 속성 추론
16	Ruin Names	언어	유머/언어유희
17	Salient Translation Error Detection	번역	번역 오류 감지
18	Snarks	언어	풍자 감지
19	Sports Understanding	상식	스포츠 상식
20	Temporal Sequences	시간	시간 순서 추론
21	Tracking Shuffled Objects (3/5/7)	추적	객체 위치 추적
22	Web of Lies	논리	참/거짓 추론
23	Word Sorting	언어	알파벳 정렬

Feature/Column 구조

필드	설명	예시
`input`	문제 텍스트	`"not ( True ) and ( True ) is"`
`target`	정답	`"False"`
`task`	태스크 이름	`"boolean_expressions"`

실제 데이터 예시

예시 1: Boolean Expressions

Input: "not ( ( not not True ) ) is"
Target: "False"

CoT: "not not True = True, so not(True) = False"

예시 2: Tracking Shuffled Objects

Input: "Alice, Bob, and Claire are playing a game.
Alice has a red ball, Bob has a blue ball, Claire has a green ball.
Alice and Bob swap. Then Bob and Claire swap.
What does Bob have?"
Target: "green ball"

CoT: "초기: A=red, B=blue, C=green.
A↔B 후: A=blue, B=red, C=green.
B↔C 후: A=blue, B=green, C=red.
Bob has green ball."

예시 3: Navigate

Input: "If you follow these instructions, do you return to
the starting point? Turn left. Take 3 steps. Turn right.
Take 3 steps. Turn right. Take 3 steps. Turn left.
Take 3 steps."
Target: "No"

왜 이 연구를 하는가?

핵심 질문

BIG-Bench의 도전적 과제에서 CoT 프롬프팅이 LLM 성능을 인간 수준으로 끌어올릴 수 있는가?

기존 접근법의 한계

한계	설명
BIG-Bench 포화	204개 중 대부분 이미 인간 수준 초과
표준 프롬프팅 한계	few-shot으로는 다단계 추론 문제 해결 어려움
CoT의 범위 미확인	CoT가 어떤 유형의 과제에 효과적인지 체계적 분석 부재

핵심 통찰

LLM이 여전히 어려워하는 과제만 선별하여 CoT의 효과를 분석하면, CoT가 효과적인 과제 유형(논리, 수학, 추적)과 그렇지 않은 유형(언어 유희, 풍자)을 구분할 수 있다.

방법 (Method)

프레임워크 개요

graph TB
    A["BIG-Bench 204 태스크"] --> B["LM < Human인<br/>23개 태스크 선별"]
    B --> C["BBH 데이터셋"]

    C --> D["Standard Prompting<br/>(few-shot, 답만)"]
    C --> E["CoT Prompting<br/>(few-shot, 추론과정+답)"]

    D --> F["성능 비교"]
    E --> F
    F --> G["태스크별 CoT 효과 분석"]

발견 (Findings)

주요 결과 (평균 정확도)

설정	InstructGPT	Codex	PaLM
Standard (few-shot)	38.0%	48.7%	—
CoT (few-shot)	49.1%	67.2%	—
개선폭	+11.1%p	+18.5%p	—
인간 평가자	—	—	67.1%

(Table 1)

핵심 발견

CoT의 극적 효과: Codex + CoT가 23개 중 17개에서 인간 평가자 초과 (Table 1)
논리/수학에서 최대 효과: Boolean Expressions, Navigate 등에서 +30%p 이상 향상
언어/상식에서 한계: Snarks, Ruin Names 등 언어 유희에서는 CoT 효과 미미
모델 크기와 CoT: 소형 모델에서는 CoT가 오히려 성능을 떨어뜨림 (inverse scaling)

이론적 의의

CoT 효과의 체계적 분석

BBH는 CoT가 효과적인 과제의 특성을 명확히 했다: 단계적 분해가 가능한 논리/수학 문제에서 최대 효과, 직관이나 세계지식이 필요한 과제에서는 미미. 이는 이후 CoT 연구의 방향을 설정하는 데 기여했다.

핵심 용어 정리

용어	정의
BBH	BIG-Bench Hard. BIG-Bench 204개 중 LM이 인간보다 뒤처지는 23개 최고 난이도 태스크
BIG-Bench	Google 주도의 204개 태스크 대규모 LM 평가 프로젝트
Chain-of-Thought (CoT)	최종 답 전에 중간 추론 과정을 명시적으로 생성하는 프롬프팅 기법
Few-shot Prompting	소수의 예시를 프롬프트에 포함하여 과제를 수행하는 방식
Inverse Scaling	모델이 커질수록 오히려 성능이 하락하는 현상

Juhyeon's Blog

탐색기

Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them