에이전트 비판적 훈련: 행동 모방이 아닌 행동 판별로 LLM 에이전트를 학습시키기

Digest: LLM 기반 에이전트는 대부분 **모방 학습(IL, Imitation Learning)**으로 훈련되는데, 이는 전문가의 성공 행동만 따라 하므로 “왜 그 행동이 좋은지” 이해하지 못하고, 실패 상황에서 동일 행동을 30회 이상 반복하는 무한 루프에 빠진다(Figure 3). 최근 Early Experience 같은 접근은 자기 성찰(self-reflection) 텍스트를 생성하여 학습시키지만, 결국 미리 만든 텍스트를 모방하는 IL의 한계를 벗어나지 못한다. 이 논문은 **ACT(Agentic Critical Training)**를 제안하여, 전문가 행동과 모델 자체 생성 대안 행동을 쌍으로 묶고 “어느 행동이 더 나은가?”를 RL(강화학습)로 판별하게 함으로써, 모델이 스스로 사고 사슬(chain-of-thought)을 발견하도록 만든다. 세 벤치마크에서 ACT는 IL 대비 평균 5.07pp, RL 대비 평균 4.62pp 향상을 달성했으며(Table 1), 에이전트 데이터만으로 훈련했음에도 GPQA-Diamond에서 1.85pp 향상(53.37% vs 51.52%, Table 3)이라는 범용 추론 전이 효과를 보였다.


메타데이터

항목내용
제목Agentic Critical Training
저자Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang‡, Furong Huang‡
소속University of Maryland, College Park
연도2026 (v1, 2026.03.09)
발표arXiv:2603.08706
링크arXiv, Project Page
키워드LLM agent, reinforcement learning, critical reasoning, imitation learning, GRPO

왜 이 연구를 하는가?

핵심 질문

LLM 에이전트가 전문가 행동을 “따라 하기”만 하는 대신, 행동의 질을 스스로 판별하고 실패에서 복구하는 능력을 어떻게 학습시킬 수 있는가?

기존 접근법의 한계

한계설명
IL의 구조적 결함전문가의 성공 행동만 학습하므로, 왜 그 행동이 좋은지·어떤 대안이 나쁜지에 대한 신호가 전혀 없음
실패 복구 불능실패 상태를 한 번도 본 적이 없어, 오류 발생 시 동일 행동을 30회 이상 반복하며 무한 루프에 빠짐 (Figure 3)
Early Experience의 가짜 성찰자기 성찰 텍스트를 GPT로 미리 생성해 놓고 이를 모방하게 하므로, 결국 IL의 변형에 불과 — “모방된 성찰”이지 “자율적 성찰”이 아님
범용 추론 붕괴IL로 에이전트 데이터를 학습하면, 짧고 행동 중심인 분포를 모방하면서 원래 갖고 있던 깊은 추론 능력이 덮어써짐 (GPQA-Diamond에서 IL은 6.91pp 하락, Table 3)

핵심 통찰

ACT의 핵심 통찰은 “행동 생성”과 “행동 판별”을 분리한 것이다. 전문가 행동(a⁺)과 모델이 스스로 생성한 대안 행동(a⁻)을 쌍으로 제시하고, 어느 쪽이 더 나은지 판별하는 과제를 RL로 훈련하면, 정답 여부만 보상으로 주어도 모델이 자율적으로 추론 과정을 발견한다. 이는 DeepSeek-R1이 RLVR(검증 가능한 보상 기반 RL)로 수학 추론을 발현시킨 것과 같은 원리를, 다단계 에이전트 환경으로 확장한 것이다.


방법 (Method)

프레임워크 개요

graph TB
    subgraph DATA["1단계: 데이터 구축"]
        EXP["전문가 궤적<br/>𝒟_expert = {(s, a⁺)}"]
        SAM["초기 정책 πθ₀에서<br/>대안 행동 K개 샘플링"]
        PAIR["대조 쌍 구성<br/>𝒟_critic = {(s, a⁺, a⁻)}"]
        EXP --> SAM --> PAIR
    end

    subgraph ACT_STAGE["2단계: ACT 훈련 (RL)"]
        PROMPT["ACT 프롬프트<br/>상태 s + 두 후보 행동<br/>(순서 랜덤화)"]
        JUDGE["모델이 더 나은 행동 판별<br/>+ 자율적 CoT 추론"]
        REWARD["보상: 정답=1.0<br/>허용 행동=0.1<br/>형식 오류=-0.5"]
        GRPO["GRPO로 정책 최적화"]
        PROMPT --> JUDGE --> REWARD --> GRPO
    end

    subgraph RL_STAGE["3단계: RL 행동 훈련"]
        ACTION["전문가 궤적에서<br/>직접 행동 생성 훈련"]
        BETTER["ACT에서 획득한 비판적<br/>추론이 행동 생성에 전이"]
        ACTION --> BETTER
    end

    PAIR --> PROMPT
    GRPO --> ACTION

    style ACT_STAGE fill:#e8f4e8
    style DATA fill:#e8e8f4
    style RL_STAGE fill:#f4e8e8

핵심 구성요소

1. 대조 데이터 구축 (Data Construction)

ACT의 데이터 구축은 세 단계로 진행된다. 먼저, 전문가 궤적 𝒟_expert의 각 상태-행동 쌍 (s_i, a_i)에서 초기 정책 πθ₀로 K개의 대안 행동을 샘플링한다. 다음으로, 전문가 행동과 동일한 대안은 필터링한다. 마지막으로, 남은 대안 각각을 전문가 행동과 쌍으로 묶어 대조 데이터셋 𝒟_critic = {(s_i, a_i⁺, a_i⁻)}를 구성한다. 핵심 가정은 초기 정책이 생성하는 행동이 평균적으로 전문가 행동보다 열등하다는 것이다.

2. ACT 훈련: 판별을 통한 추론 발현 (Agentic Critical Training)

ACT 프롬프트는 현재 상태(과제 설명, 최근 k개 관찰-행동 이력, 현재 관찰)와 함께 두 후보 행동을 제시한다. 후보 순서는 랜덤 순열 σ로 결정되어, 전문가 행동이 “Action 1” 또는 “Action 2” 위치에 동일 확률로 배치된다(위치 편향 방지). 모델은 어느 행동이 더 나은지 판별하고, 그 이유를 생각한 뒤, <action>...</action> 태그로 선택을 출력한다.

핵심적으로, 추론 과정에 대한 감독은 전혀 제공되지 않는다. 보상은 오직 최종 선택의 정확성에만 주어지므로, 모델이 정확한 판별에 도달하기 위해 자율적으로 사고 사슬(CoT)을 발견해야 한다. 이것이 Early Experience와의 근본적 차이다 — Early Experience는 성찰 텍스트를 미리 생성해 모방시키지만, ACT는 검증 가능한 보상(verifiable reward)으로 자율적 추론의 발현을 유도한다.

3. 보상 설계 (Reward Design)

복합 보상 함수 R(s, y) = R_acc + R_adm + R_fmt는 세 요소로 구성된다. 정확도 보상(R_acc = 1.0)은 선택이 전문가 행동과 일치할 때 부여된다. 허용 행동 보상(R_adm = 0.1)은 전문가 행동은 아니지만 허용 가능한 행동을 선택했을 때의 부분 점수로, 완전 무관한 행동과 구별하는 중간 신호를 제공한다. 형식 보상(R_fmt = -0.5)은 <action> 태그 없이 응답할 때 패널티를 부과한다.

4. GRPO 최적화 (Group Relative Policy Optimization)

GRPO는 학습된 가치 함수(value function) 없이, 그룹 내 보상 통계로 이점(advantage)을 추정하는 효율적 RL 알고리즘이다. 프롬프트 s에 대해 G개의 응답을 샘플링하고, 각 응답의 보상 r⁽ᵍ⁾에서 그룹 평균과 표준편차를 빼서 정규화한 이점 Â⁽ᵍ⁾ = (r⁽ᵍ⁾ - r̄) / (σᵣ + ε)을 계산한다. PPO 스타일의 클리핑과 KL 페널티를 적용하여 안정적 업데이트를 보장한다.

5. RL 행동 훈련 단계 (RL Action Training)

ACT로 비판적 추론 능력을 획득한 모델을 이어서 GRPO로 직접 행동 생성을 훈련한다. 이 단계에서는 전문가 궤적의 각 상태에서 행동을 생성하고, 전문가 행동과 일치하면 보상을 받는다. ACT 단계에서 획득한 비판적 추론 기반이 행동 생성의 품질을 높이는 전이 효과를 발휘한다.


발견 (Findings)

주요 결과

표 1: 세 벤치마크 주요 결과 (%, Qwen3-8B)

방법ALFWorld IDALFWorld OODWebShopScienceWorld
Prompt (CoT 없음)35.7127.612.8028.01
Prompt (CoT)56.4350.003.0025.21
ACT 단독72.8672.397.4026.71
IL85.7182.8428.0042.80
Early Experience87.8685.8231.0045.60
IL + ACT91.4387.3131.6048.69
RL90.7184.3329.4043.04
RL + ACT92.8688.0633.8050.34

(ALFWorld·WebShop: 성공률, ScienceWorld: 다음 행동 예측 정확도)

표 2: 교차 크기 전이 결과 (%, ALFWorld, Qwen3-4B에 Qwen3-8B ACT 데이터 적용)

방법Qwen3-4B IDQwen3-4B OODQwen3-8B IDQwen3-8B OOD
IL85.0083.5885.7182.84
IL + ACT88.5791.0491.4387.31
RL91.4388.8190.7184.33
RL + ACT92.1491.7992.8688.06

표 3: 범용 추론 벤치마크 성능 (%, 에이전트 데이터만으로 훈련)

방법MATH-500GPQA-Diamond
Prompt (CoT)86.93±0.7451.52±1.89
IL87.00±0.3344.61±0.95
Early Experience86.86±0.2551.85±0.63
RL87.07±0.7752.36±1.32
ACT87.73±0.1953.37±0.63

핵심 발견

발견 1: RL이 IL보다 일관적으로 우수하다. 동일한 전문가 데이터로 훈련했을 때, RL이 모든 벤치마크에서 IL보다 높은 성공률을 달성했다(Table 1). 이는 보상 신호가 단순 모방보다 효과적인 학습 신호임을 확인한다.

발견 2: ACT는 IL과 RL 모두에 일관적 향상을 제공한다. ACT 단독으로는 IL이나 RL에 미치지 못하지만, 사전 단계로 사용하면 IL 대비 평균 5.07pp, RL 대비 평균 4.62pp 향상을 가져온다(Table 1). 이는 비판적 추론이 행동 생성의 기반 능력으로 작동함을 시사한다.

발견 3: ACT는 Early Experience를 모든 벤치마크에서 능가한다. IL + ACT가 Early Experience를 평균 2.42pp 상회했다(Table 1). 이는 “모방된 성찰”보다 “자율적 성찰”이 더 효과적임을 실증한다.

발견 4: ACT는 OOD(분포 밖) 일반화에 특히 강하다. ALFWorld에서 ACT의 RL 위 향상 폭이 OOD(3.73pp)에서 ID(2.15pp)보다 더 컸다(Table 1). 비판적 추론이 새로운 과제 구성에 일반화됨을 보여준다.

발견 5: ACT는 교차 크기 전이가 가능하다. Qwen3-8B에서 수집한 ACT 데이터를 재수집 없이 Qwen3-4B에 적용해도 ID·OOD 모두에서 일관적 향상이 나타났다(Table 2). 데이터 수집 비용을 모델 크기 간에 분산할 수 있다.

발견 6: ACT는 범용 추론을 향상시킨다. 에이전트 데이터만으로 훈련했음에도, ACT는 GPQA-Diamond에서 CoT 프롬프팅 대비 1.85pp 향상(53.37% vs 51.52%)을 달성했다(Table 3). 반면 IL은 같은 벤치마크에서 6.91pp 하락(44.61%)했다. 이는 IL이 짧은 행동 시퀀스를 모방하며 깊은 추론 능력을 덮어쓰는 “추론 붕괴(reasoning collapse)“를 일으키는 반면, ACT의 RL 기반 훈련은 추론 능력을 보존하고 강화함을 의미한다.

사례 연구: 실패 복구 능력

IL 모델의 실패 패턴 (Figure 3, ALFWorld): “천을 세척한 뒤 캐비닛에 넣기” 과제에서, IL 모델은 “put cloth 1 in/on cabinet 1” 행동이 실패한 뒤 동일 행동을 30회 이상 반복하며 종료 시간까지 무한 루프에 빠졌다. 실패 상태를 학습 중 한 번도 본 적이 없기 때문이다.

ACT 모델의 복구 (Figure 3, ALFWorld): 유사한 실패 발생 시, ACT 모델은 “숟가락을 테이블 위에 놓으려 했지만 아무 일도 일어나지 않았다… 과제는 테이블 ‘위’가 아니라 ‘안에’ 넣는 것이다. 먼저 테이블로 이동해야 한다!”라고 자가 진단하며, 올바른 탐색 명령을 발행했다.


이론적 의의

판별과 생성의 분리가 자율적 추론을 낳는다

ACT의 가장 중요한 이론적 기여는, 행동 “판별” 과제를 RL로 훈련하면 명시적 추론 감독 없이도 자율적 사고 사슬이 발현된다는 발견이다. 이는 DeepSeek-R1의 RLVR(검증 가능한 보상 기반 RL)가 수학 추론에서 보인 현상을, 다단계 순차적 의사결정(sequential decision-making) 환경으로 확장한 것이다. 보상이 최종 선택의 정확성에만 주어지므로, 모델은 정확한 판별에 도달하기 위한 중간 추론 과정을 스스로 “발명”해야 하며, 이 과정에서 진정한 비판적 사고가 형성된다.

모방 학습의 추론 붕괴 메커니즘 규명

이 논문은 IL이 왜 범용 추론을 해치는지를 “추론 붕괴(reasoning collapse)“로 명명하고 두 가지 양상을 실증했다. 첫째, 초점 없는 방황(unfocused meandering) — IL 모델이 GPQA 문제에서 3.5배 긴 응답(37,924자 vs 10,669자)을 생성하면서도 결론에 도달하지 못하는 현상(Figure 12). 둘째, 대수적 무한 루프(algebraic death loops) — MATH 문제에서 특수 사례는 풀지만 일반화에 실패하며, 자기 의심의 순환에 빠지는 현상(Figure 13). ACT의 RL 기반 훈련은 행동 패턴이 아닌 결과 정확성을 최적화하므로, 원래 모델의 추론 능력을 보존하면서 에이전트 스킬을 추가한다.

보상 설계의 세 층위 구조

R = R_acc + R_adm + R_fmt의 세 층위 보상 설계는 실용적 가치가 크다. 정확도 보상(1.0)은 올바른 판별을, 허용 행동 보상(0.1)은 “완전 틀린 것은 아닌” 중간 신호를, 형식 보상(-0.5)은 출력 구조를 보장한다. 허용 행동에 부분 점수를 주는 설계는 보상의 희소성(sparsity) 문제를 완화하며, 이는 다른 에이전트 RL 연구에도 적용 가능한 패턴이다.


관련 연구

  • DeepSeek-R1 — RLVR로 수학 추론을 발현시킨 연구, ACT가 이를 에이전트 환경으로 확장
  • GRPO — ACT가 사용하는 RL 최적화 알고리즘 (그룹 상대적 정책 최적화)
  • GiGPO — 장기 에이전트 과제를 위한 단계별 신용 할당 RL, ALFWorld 전문가 궤적 출처
  • ReAct — 추론과 행동을 번갈아 수행하는 프레임워크, ACT는 이를 훈련 시점으로 이동
  • Reflexion — 추론 시점 자기 성찰, ACT는 이를 학습된 역량으로 전환
  • Early_Experience — 사전 생성 성찰 텍스트로 IL, ACT와 직접 비교되는 베이스라인

핵심 용어 정리

용어정의
LLM (Large Language Model)대규모 텍스트 데이터로 훈련된 언어 모델로, GPT-4, Qwen 등이 대표적
IL (Imitation Learning, 모방 학습)전문가의 행동을 직접 모방하여 정책을 학습하는 방법. 성공 사례만 학습하므로 실패 복구 불가
RL (Reinforcement Learning, 강화학습)보상 신호를 통해 최적 정책을 학습하는 방법. 시행착오를 통해 행동의 질을 평가
ACT (Agentic Critical Training)전문가 행동과 대안 행동 중 어느 것이 더 나은지 RL로 판별하게 훈련하는 방법
GRPO (Group Relative Policy Optimization)학습된 가치 함수 없이 그룹 내 보상 통계로 이점을 추정하는 효율적 RL 알고리즘
RLVR (RL with Verifiable Reward)수학 정답, 코드 실행 결과 등 검증 가능한 보상을 사용하는 강화학습 방식
CoT (Chain-of-Thought, 사고 사슬)최종 답에 이르기까지의 중간 추론 과정을 명시적으로 생성하는 기법
POMDP (Partially Observable MDP)환경 상태가 부분적으로만 관찰 가능한 의사결정 문제의 수학적 모형
OOD (Out-of-Distribution, 분포 밖)훈련 데이터 분포에 포함되지 않은 새로운 과제·환경
추론 붕괴 (Reasoning Collapse)IL로 짧은 행동 시퀀스를 모방하면서 원래 모델의 깊은 추론 능력이 덮어써지는 현상
Early Experience전문가와 대안 행동을 모두 실행한 뒤, 성찰 텍스트를 생성하여 IL로 학습시키는 방법
ALFWorld텍스트 기반 가정용 로봇 과제 벤치마크 (탐색, 물체 조작)
WebShop웹 기반 쇼핑 과제 벤치마크 (상품 검색, 선택)
ScienceWorld과학 실험 수행 과제 벤치마크 (다단계 실험 절차)
전문가 궤적 (Expert Trajectory)성공적으로 과제를 완수한 상태-행동 시퀀스
허용 행동 (Admissible Action)현재 상태에서 실행 가능한 행동의 집합

태그

paper #2026 Skill_LM RL agent critical_reasoning GRPO imitation_learning self_reflection