Introduction
- LLM이 인간처럼 self-examination을 통해 이전 응답을 교정하는 self-correction 능력 보유
- 이러한 능력이 어떻게 발생하는지는 거의 알려져 있지 않음
- Alignment task와 유사한 simplified setup에서 self-correction을 이론적으로 분석
- LLM self-correction 실증 연구
- In-context learning 이론
- Linear transformer에 대한 기존 이론적 분석
Methods
- In-context learning 관점에서 self-correction 이론 분석
- LLM이 상대적으로 정확한 self-examination을 reward로 제공할 때 in-context 방식으로 응답 개선 가능함을 증명
- 기존 oversimplified linear transformer 이론을 넘어, 실제 transformer의 핵심 설계 요소들의 역할 규명:
- Softmax attention
- Multi-head attention
- MLP block
Results
- Synthetic dataset에서 이론적 발견을 광범위하게 검증
- Self-correction의 새로운 응용: LLM jailbreak 방어
- 간단한 self-correction step이 큰 차이를 만듦
Discussion
- Self-correction의 이론적 기반 확립
- Realistic transformer 구성 요소들의 역할을 이론적으로 설명
- Self-correction 이해, 활용, 향상을 위한 향후 연구 방향 제시