Introduction
- Multi-agent 시스템이 LLM의 사회적 인지 및 지식 검색 능력으로 실제 시뮬레이션에서 상당한 지능 시현
- 그러나 추론, 계획, 의사결정, 성찰을 포함한 효과적인 인지 체인에 대한 연구 제한적
- 동적 상호작용 시나리오에서 특히 부족
- 프롬프트 기반 응답이 심리 상태 인식 및 경험적 calibration에서 어려움
- Multi-agent 시스템 연구
- Theory of Mind (ToM) 연구
- LLM 기반 에이전트 연구
Methods
- PolicyEvol-Agent: 타인의 의도를 체계적으로 획득하고 비합리적 전략을 적응적으로 최적화
- Reflective expertise patterns 획득
- Theory of Mind와 내부/외부 관점을 통합한 인지 연산
- 동적 guideline 조정을 통한 정책 진화 메커니즘
Results
- RL 기반 모델 및 agent 기반 방법보다 우수한 성능
- 최종 게임 승리에서 PolicyEvol-Agent의 우수성 입증
- 자동 평가 및 인간 평가 모두에서 동적 guideline 조정의 효과 확인
Discussion
- 환경 인식과 자기인식의 결합 중요성
- Theory of Mind의 에이전트 적용 가능성
- 동적 상호작용 시나리오에서의 적응적 전략
- 향후 연구: 더 복잡한 multi-agent 환경에서의 검증