Introduction
- 기존 에이전트 계획 접근법이 “flood irrigation” 방식으로 gold trajectories, 외부 피드백, 도메인 지식을 무차별 주입
- 인간의 상황적 자기인식(situational self-awareness) 인지 원리 무시
- Agentic Knowledgeable Self-awareness 패러다임 제안
- LLM 기반 에이전트가 지식 활용을 자율적으로 조절하도록 함
- LLM 에이전트 계획 연구
- 외부 지식 통합 연구
- 메타인지 및 자기조절 학습 연구
Methods
- KnowSelf: 인간처럼 자기인식을 갖춘 에이전트를 위한 데이터 중심 접근법
- Heuristic situation judgement criterion으로 에이전트의 self-explored trajectories에 특수 토큰 마킹
- 2단계 훈련 프로세스: 상황에 따라 특수 토큰 생성으로 모드 전환
- 최소 비용으로 최적 계획 효과 달성
Results
Discussion
- 인간의 상황 인식 능력을 에이전트에 적용
- 효율적인 지식 활용 전략 학습
- 다양한 도메인 에이전트에 적용 가능
- 향후 연구: 더 복잡한 multi-agent 환경에서의 검증