Evo-Memory는 LLM 에이전트의 테스트 타임 메모리 진화 능력을 정량적으로 측정하는 통합 벤치마크
메모리 증강 에이전트를 (F, U, R, C) 4-튜플로 추상화: F(베이스 LLM), U(메모리 갱신), R(검색 모듈), C(컨텍스트 생성기)
10개 데이터셋: 단일 턴 QA 5개(MMLU-Pro, GPQA-Diamond, AIME-24/25, ToolBench) + 멀티 턴 상호작용 5개(AlfWorld, BabyAI, ScienceWorld, PDDL, Jericho)
핵심 메서드: ExpRAG(경험 축적 기반) vs ReMem(Think/Act/Refine 3-연산 메타-추론)
주요 발견: ReMem이 멀티 턴 환경에서 현저히 높은 성공률·스텝 효율 달성; 경량 모델이 자기진화 메모리를 통해 더 큰 폭의 향상
Related Papers
RAG (Retrieval-Augmented Generation): 정적 컨텍스트 검색 — 동적 메모리 갱신 미지원
ReAct (Yao et al., 2023): 추론-행동 루프 — 메모리 정제 미포함
SelfRAG, MemOS: 에이전트 메모리 연구 — Evo-Memory가 통합 비교 프레임워크 제공
차별점: (1) 10개 데이터셋 포괄 벤치마크, (2) 메모리 메타-추론(ReMem) 최초 제안, (3) 태스크 유사도-메모리 개선 상관 분석
Methods
Search → Predict → Evolve 사이클
각 태스크마다 관련 메모리 검색 → 태스크 수행 → 결과에 따라 메모리 갱신
ExpRAG
태스크 결과를 구조화된 경험 텍스트로 인코딩
코사인 유사도 기반 검색 + 원샷 학습 방식으로 단순 축적
ReMem
Think: 내부 추론 → Act: 외부 실행 → Refine: 메모리 메타-추론
에이전트가 자신의 메모리 품질을 능동적으로 평가·수정
방법론 다이어그램
graph TD
A[태스크 입력 x_t] --> B[메모리 검색 R]
B -->|상위 k개 경험| C{ReMem 연산 선택}
C --> D[Think: 내부 추론]
C --> E[Act: 외부 환경 실행]
C --> F[Refine: 메모리 메타-추론]
D --> H[예측 생성 y_t]
E --> H
F --> H
H --> I{성공 여부 평가}
I -->|성공/실패 경험| J[메모리 갱신 U]
J --> M[메모리 풀 M_t+1]
M -->|다음 태스크| A
style C fill:#E67E22,color:#fff
style M fill:#8E44AD,color:#fff
Results
평가 모델: Gemini 2.5 Flash, Claude 3.7 Sonnet
데이터셋: 10개 (단일 턴 5 + 멀티 턴 5)
핵심 발견: 태스크 유사도와 메모리 개선 효과 간 강한 양의 상관 (Pearson r = 0.717)
실험 결과 상세
멀티 턴 성능 (Claude 3.7 Sonnet)
Method
Dataset
Success Rate
Progress Rate
ReMem
BabyAI
0.92
0.96
ReMem
ScienceWorld
0.62
0.89
ReMem
멀티 턴 평균
0.78
0.91
ReMem
AlfWorld Steps
11.5
—
Baseline
AlfWorld Steps
22.6
—
단일 턴 성능
Method
평균 Accuracy
ReMem (Gemini 2.5 Flash)
0.65
ExpRAG (Claude 3.7 Sonnet)
0.59
태스크 유사도 상관
Model
Pearson r
Gemini 2.5 Flash
0.717
Claude 3.7 Sonnet
0.563
Discussion
메모리 “진화”를 메타-추론 문제로 재정의: 단순 저장/검색 넘어 에이전트가 메모리 품질을 스스로 평가·수정
경량 모델의 실용성: Gemini Flash, Claude Haiku 등 경량 모델이 자기진화 메모리를 통해 더 큰 폭의 향상 → 파인튜닝 대안