Introduction


  • 다중 에이전트 강화학습(MARL)은 다중 에이전트 시스템의 비정상성(non-stationarity)으로 인해 어려움 발생
  • 기존 LLM 기반 에이전트들은 다른 에이전트의 전략을 추론하고 자신의 계획에 반영하는 Theory of Mind 능력 부족
  • 본 논문은 자연어로 다른 에이전트의 전략에 대한 가설을 생성하고, 평가하며, 정제하는 Hypothetical Minds 프레임워크 제안
  • 핵심 기여: Rescorla-Wagner 학습 규칙을 적용한 가설 평가 메커니즘으로 복잡한 사회적 상호작용 환경에서 SOTA 달성

Related Papers


  • ReAct(추론+행동), Reflexion(자기 성찰) 연구와 메타인지 결합
  • 계층적 강화학습 및 world model 개념과의 연결
  • DeepMind Melting Pot 벤치마크 - MARL 일반화 능력 평가의 표준
  • 인지과학의 Theory of Mind 및 사회적 세계 모델(social world model) 이론

Methods


  • 인지적으로 영감받은 모듈형 아키텍처: 지각(perception), 기억(memory), 두 단계 추상화의 계층적 계획(hierarchical planning) 포함
  • Theory of Mind 모듈: 자연어로 다른 에이전트의 전략에 대한 가설 생성 → 예측 정확도 평가(내재적 보상) → Rescorla-Wagner 규칙으로 가설 가치 동적 업데이트
  • Self-world vs Social-world 신념: 1차(first-order) ToM과 고차 ToM에 각각 대응
  • 계층적 계획: 검증된 ToM 가설 기반으로 고수준 전략 수립 → 저수준에서 실행 가능한 하위 목표로 분해
  • 텍스트 상태 표현을 통한 egocentric 관찰 처리

방법론 다이어그램

graph TD
    A[환경 관찰] --> B[지각 모듈]
    B --> C[텍스트 상태 표현]
    C --> D[기억 모듈]
    D --> E[Theory of Mind 모듈]

    E --> F[가설 생성]
    F --> G[다른 에이전트 전략에 대한<br/>자연어 가설들]

    G --> H[가설 평가]
    H --> I[예측 정확도 측정<br/>내재적 보상 계산]

    I --> J[가설 정제]
    J --> K[Rescorla-Wagner 규칙으로<br/>가설 가치 업데이트]

    K --> L{가설 수렴?}
    L -->|아니오| F
    L -->|예| M[검증된 가설]

    M --> N[고수준 계획]
    N --> O[전략적 목표 설정]
    O --> P[저수준 계획]
    P --> Q[하위 목표 분해]
    Q --> R[행동 실행]
    R --> A

Results


  • Running With Scissors Repeated (경쟁적 제로섬 환경):
    • Mixed strategy opponent 대비 50.8±8.6점 달성
    • Best response opponent 대비 23.2±4.7점 달성
    • 베이스라인들은 거의 0점 또는 음수 점수
  • Melting Pot 벤치마크: 경쟁적, 혼합 동기, 협력적 도메인 전반에서 기존 LLM 에이전트 및 RL 베이스라인 대비 일관되고 유의미한 성능 향상
  • Ablation Study: 가설 평가 및 정제 메커니즘이 복잡한 시나리오 성공에 핵심적 역할 확인

실험 결과 상세

Model/MethodEnvironmentOpponent TypeMetric (Score)vs. Baseline
Hypothetical MindsRunning With ScissorsMixed Strategy50.8 ± 8.6Large positive
Hypothetical MindsRunning With ScissorsBest Response23.2 ± 4.7Large positive
LLM BaselineRunning With ScissorsMixed Strategy~0 or negative-
RL BaselineRunning With ScissorsMixed Strategy~0 or negative-
Hypothetical MindsMelting Pot (various)Population-basedSignificant improvementOutperforms all

Discussion


  • 구체적 정량적 결과가 일부 환경에만 상세히 보고됨
  • 실시간 의사결정 필요 환경에서 LLM 추론 속도가 병목 가능
  • 가설 평가를 위한 내재적 보상 설계의 일반화 가능성 검증 필요
  • 완전히 새로운 게임 메커니즘에서의 효과성 미검증

Insights


  • 주목할 점: Theory of Mind를 자연어 가설 생성 및 평가 프레임워크로 구현 - 심리학의 Rescorla-Wagner 학습 규칙을 LLM 에이전트에 적용
  • 연결 고리: 메타인지와 ToM 결합, 사회적 에이전트 연구의 새로운 방향 제시
  • 시사점: LLM이 다른 에이전트의 의도와 전략을 추론하고 적응 가능 - 인간-AI 협업, 다중 로봇 시스템 응용 가능
  • 질문: 가설 생성 품질이 LLM 사전학습 데이터에 얼마나 의존하는가? 가설 공간 확장 시 계산 비용은?
  • 비판적 코멘트: ToM 가설이 진정한 “이해”인가 패턴 매칭의 언어적 표현인가? 자연어 가설의 모호성이 성능에 미치는 영향 분석 필요

Discussion Points


  • 논쟁점: ToM 가설이 진정한 “이해”인가? 자연어 가설의 모호성 문제
  • 검증 필요 가정: Rescorla-Wagner 규칙의 다양한 사회적 학습 시나리오에서의 보편적 적용 가능성
  • 후속 연구: 재귀적 ToM 확장(나는 상대가 나를 어떻게 생각한다고 생각하는가?), 멀티모달 ToM, 대규모 집단 환경 확장성