BIG-Bench Hard: 도전적 과제에서의 Chain-of-Thought 프롬프팅

Digest: Google의 BIG-Bench는 204개 과제로 구성된 대규모 벤치마크이지만, 대부분의 과제가 평균적인 인간 평가자보다 이미 높은 성능을 보여 변별력이 낮다. Stanford/Google 연구팀은 BIG-Bench에서 언어모델이 인간 평가자보다 뒤처지는 23개 최고 난이도 과제만 선별한 **BBH(BIG-Bench Hard)**를 제안했다. 핵심 통찰은 Chain-of-Thought(CoT) 프롬프팅이 이 도전적 과제들에서 극적인 성능 향상을 보인다는 것이다. Codex + CoT가 23개 태스크 중 17개에서 인간 평가자를 초과했으며, 평균 점수가 기존 프롬프팅 대비 +18%p 향상되었다 (Table 1).


메타데이터

항목내용
제목Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them
저자Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc Le, Ed Chi, Denny Zhou, Jason Wei
소속Stanford University, Google Research
연도2022
발표ACL 2023 Findings, arXiv:2210.09261
링크arXiv, GitHub
키워드BBH, BIG-Bench Hard, chain-of-thought, reasoning, challenging tasks

데이터셋 구성

규모 및 분할

항목내용
태스크 수23개
태스크당 문제 수50-250개 (태스크별 상이)
총 문제 수~6,511개
형식자유형/선다형 혼합
CoT 예시태스크당 3개 수작업 CoT 예시 제공

23개 태스크 목록

#태스크유형설명
1Boolean Expressions논리불리언 식 평가
2Causal Judgement인과인과관계 판단
3Date Understanding시간날짜 추론
4Disambiguation QA언어모호성 해소
5Dyck Languages형식괄호 매칭
6Formal Fallacies논리논리적 오류 판별
7Geometric Shapes공간기하 도형 추론
8Hyperbaton언어형용사 순서 판단
9Logical Deduction (3/5/7)논리순서 추론
10Movie Recommendation상식영화 추천
11Multistep Arithmetic수학다단계 산술
12Navigate공간방향 추적
13Object Counting수학개체 수 세기
14Penguins in a Table표 데이터 추론
15Reasoning about Colored Objects추론색 속성 추론
16Ruin Names언어유머/언어유희
17Salient Translation Error Detection번역번역 오류 감지
18Snarks언어풍자 감지
19Sports Understanding상식스포츠 상식
20Temporal Sequences시간시간 순서 추론
21Tracking Shuffled Objects (3/5/7)추적객체 위치 추적
22Web of Lies논리참/거짓 추론
23Word Sorting언어알파벳 정렬

Feature/Column 구조

필드설명예시
input문제 텍스트"not ( True ) and ( True ) is"
target정답"False"
task태스크 이름"boolean_expressions"

실제 데이터 예시

예시 1: Boolean Expressions

Input: "not ( ( not not True ) ) is"
Target: "False"

CoT: "not not True = True, so not(True) = False"

예시 2: Tracking Shuffled Objects

Input: "Alice, Bob, and Claire are playing a game.
Alice has a red ball, Bob has a blue ball, Claire has a green ball.
Alice and Bob swap. Then Bob and Claire swap.
What does Bob have?"
Target: "green ball"

CoT: "초기: A=red, B=blue, C=green.
A↔B 후: A=blue, B=red, C=green.
B↔C 후: A=blue, B=green, C=red.
Bob has green ball."

예시 3: Navigate

Input: "If you follow these instructions, do you return to
the starting point? Turn left. Take 3 steps. Turn right.
Take 3 steps. Turn right. Take 3 steps. Turn left.
Take 3 steps."
Target: "No"

왜 이 연구를 하는가?

핵심 질문

BIG-Bench의 도전적 과제에서 CoT 프롬프팅이 LLM 성능을 인간 수준으로 끌어올릴 수 있는가?

기존 접근법의 한계

한계설명
BIG-Bench 포화204개 중 대부분 이미 인간 수준 초과
표준 프롬프팅 한계few-shot으로는 다단계 추론 문제 해결 어려움
CoT의 범위 미확인CoT가 어떤 유형의 과제에 효과적인지 체계적 분석 부재

핵심 통찰

LLM이 여전히 어려워하는 과제만 선별하여 CoT의 효과를 분석하면, CoT가 효과적인 과제 유형(논리, 수학, 추적)과 그렇지 않은 유형(언어 유희, 풍자)을 구분할 수 있다.


방법 (Method)

프레임워크 개요

graph TB
    A["BIG-Bench 204 태스크"] --> B["LM < Human인<br/>23개 태스크 선별"]
    B --> C["BBH 데이터셋"]

    C --> D["Standard Prompting<br/>(few-shot, 답만)"]
    C --> E["CoT Prompting<br/>(few-shot, 추론과정+답)"]

    D --> F["성능 비교"]
    E --> F
    F --> G["태스크별 CoT 효과 분석"]

발견 (Findings)

주요 결과 (평균 정확도)

설정InstructGPTCodexPaLM
Standard (few-shot)38.0%48.7%
CoT (few-shot)49.1%67.2%
개선폭+11.1%p+18.5%p
인간 평가자67.1%

(Table 1)

핵심 발견

  1. CoT의 극적 효과: Codex + CoT가 23개 중 17개에서 인간 평가자 초과 (Table 1)
  2. 논리/수학에서 최대 효과: Boolean Expressions, Navigate 등에서 +30%p 이상 향상
  3. 언어/상식에서 한계: Snarks, Ruin Names 등 언어 유희에서는 CoT 효과 미미
  4. 모델 크기와 CoT: 소형 모델에서는 CoT가 오히려 성능을 떨어뜨림 (inverse scaling)

이론적 의의

CoT 효과의 체계적 분석

BBH는 CoT가 효과적인 과제의 특성을 명확히 했다: 단계적 분해가 가능한 논리/수학 문제에서 최대 효과, 직관이나 세계지식이 필요한 과제에서는 미미. 이는 이후 CoT 연구의 방향을 설정하는 데 기여했다.


관련 연구


핵심 용어 정리

용어정의
BBHBIG-Bench Hard. BIG-Bench 204개 중 LM이 인간보다 뒤처지는 23개 최고 난이도 태스크
BIG-BenchGoogle 주도의 204개 태스크 대규모 LM 평가 프로젝트
Chain-of-Thought (CoT)최종 답 전에 중간 추론 과정을 명시적으로 생성하는 프롬프팅 기법
Few-shot Prompting소수의 예시를 프롬프트에 포함하여 과제를 수행하는 방식
Inverse Scaling모델이 커질수록 오히려 성능이 하락하는 현상

태그

paper #2022 benchmark reasoning BBH BIG_Bench chain_of_thought ACL