Introduction


  • Multi-agent 시스템이 LLM의 사회적 인지 및 지식 검색 능력으로 실제 시뮬레이션에서 상당한 지능 시현
  • 그러나 추론, 계획, 의사결정, 성찰을 포함한 효과적인 인지 체인에 대한 연구 제한적
  • 동적 상호작용 시나리오에서 특히 부족
  • 프롬프트 기반 응답이 심리 상태 인식 및 경험적 calibration에서 어려움

Related Papers


  • Multi-agent 시스템 연구
  • Theory of Mind (ToM) 연구
  • LLM 기반 에이전트 연구

Methods


  • PolicyEvol-Agent: 타인의 의도를 체계적으로 획득하고 비합리적 전략을 적응적으로 최적화
  • Reflective expertise patterns 획득
  • Theory of Mind와 내부/외부 관점을 통합한 인지 연산
  • 동적 guideline 조정을 통한 정책 진화 메커니즘

Results


  • RL 기반 모델 및 agent 기반 방법보다 우수한 성능
  • 최종 게임 승리에서 PolicyEvol-Agent의 우수성 입증
  • 자동 평가 및 인간 평가 모두에서 동적 guideline 조정의 효과 확인

Discussion


  • 환경 인식과 자기인식의 결합 중요성
  • Theory of Mind의 에이전트 적용 가능성
  • 동적 상호작용 시나리오에서의 적응적 전략
  • 향후 연구: 더 복잡한 multi-agent 환경에서의 검증