MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
Digest (CISELQ)
- Context (C): 현대 LLM 에이전트는 multi-turn, long-horizon 환경(검색·브라우징·쇼핑 등)에서 동작해야 하며, 외부 정보를 반복 조회하고 상호 의존적인 하위 질의를 해결해야 한다. 그러나 대부분 시스템은 전체 히스토리를 컨텍스트에 누적하는 full-context prompting에 의존한다.
- Issue (I): 풀 컨텍스트 누적은 (1) 비제한적 메모리 증가, (2) 추론 연산 비용의 선형~제곱적 증가, (3) 학습 시 관측되지 않은 긴 입력에서의 성능 열화(OOD length degradation)를 초래한다.
- Solution (S): MEM1은 매 턴마다 과거 메모리와 새 관측을 병합하고 불필요 정보를 버리는 공유 내부 상태(
<IS>...</IS>) 를 유지하며, 메모리 통합과 추론을 하나의 생성 단계에서 공동 수행하도록 end-to-end 강화학습(PPO / REINFORCE++ 계열) 으로 훈련한다. 또한 기존 데이터셋을 합성해 임의 복잡도의 multi-turn 환경을 만드는 compositional task construction을 제안한다. - Evaluation (E): Internal retrieval QA(HotpotQA 유사 multi-hop), open-domain web QA, multi-turn web shopping(WebShop 스타일) 3개 도메인에서 Qwen2.5-7B/14B-Instruct, ReAct, full-context agent 등과 비교. 메모리(토큰) 사용량, 성공률, 학습 horizon을 넘어선 일반화를 평가.
- Limitations (L): 내부 상태의 품질이 단일 LLM의 요약 능력에 강하게 의존, 보상 설계가 태스크-특정이며, 이전 컨텍스트를 완전히 버리기 때문에 information loss 리스크가 구조적으로 존재. 멀티모달·도구 호출 루프까지의 일반화 실증은 제한적.
- Quick take (Q): “모든 것을 기억하지 말고, 추론과 함께 기억을 재작성하라.” 상수 메모리 + RL 학습으로 7B 모델이 풀 컨텍스트 14B 모델을 3.5배 앞서고 메모리는 3.7배 절약.
섹션별 요약
Introduction
장기 horizon 에이전트의 근본 병목은 context window이며, 단순 truncation·RAG·외부 memory store는 추론과 메모리의 분리로 인해 정보 선택 오류나 누수가 발생한다. 저자들은 메모리 통합을 추론의 부산물로 학습시키는 방향을 제시한다.
Methods
- Shared Internal State (
<IS>): 매 턴 에서 에이전트는 이전 상태 과 환경 관측 를 입력으로 받아, 새로운 reasoning trace , 도구 호출/액션 , 그리고 갱신된 를 동시에 생성한다. 다음 턴의 컨텍스트는 만을 포함하여 상수 길이로 유지된다. - Masked Trajectory 최적화: 각 턴에서 소비된 이전 컨텍스트는 policy gradient 계산 시 마스킹되어, IS 재작성 토큰과 액션 토큰에만 credit이 할당된다.
- Training Env Composition: 단일-쿼리 QA 데이터셋을 조합해 -objective multi-hop 시퀀스(예: 2, 4, 8, 16 목표)를 자동 생성. 난이도·horizon을 연속적으로 스케일.
- RL 학습: PPO 및 REINFORCE++ 기반 end-to-end 최적화. 보상은 (i) 최종 정답 정확도, (ii) 단계별 도구 호출 성공, (iii) 상태 길이 패널티(상수 메모리 유도)의 가중합으로 설계.
Results (요약 테이블)
| 도메인 | 태스크 | 베이스라인 | MEM1-7B 결과 |
|---|---|---|---|
| Internal Retrieval QA | 16-objective multi-hop | Qwen2.5-14B-Instruct (full ctx) | 성능 ×3.5, 메모리 ×1/3.7 |
| Open-domain Web QA | multi-hop 검색 | ReAct / full-context | 동등 또는 상회, 토큰 대폭 절감 |
| Multi-turn Web Shopping | 목표 달성률 (WebShop 계열) | ReAct baseline | 상수 컨텍스트에서 우세 |
훈련 horizon(예: 4-obj)을 넘어선 8·16-obj에서도 성능 저하가 완만하여 length generalization이 관찰됨.
Discussion
상수 메모리를 유지하는 제약은 정보 손실 리스크를 수반하지만, RL 보상 신호가 “무엇을 남길지” 를 학습시키는 강한 bottleneck regularizer로 작용해 오히려 OOD 길이에서의 robustness를 개선한다. 저자들은 메모리-추론 분리 아키텍처(RAG + 추론기)보다 통합(single-policy) 접근이 스케일링에서 유리할 수 있다고 주장.
Insights
- 메모리 통합은 생성 타임에 추론으로 구현할 수 있으며, 이는 별도 메모리 모듈보다 end-to-end 신호로 최적화하기 쉽다.
- Compositional task synthesis는 long-horizon RL의 데이터 부족 문제를 우회하는 실용적 수단이다.
- 상수 메모리 제약은 단순 효율성뿐 아니라 일반화(generalization)에 기여하는 inductive bias.
Discussion Points
- 내부 상태의 해석가능성·감사(audit) 방법?
- 보상 해킹: 요약이 너무 짧아 정보 손실 vs 너무 길어 컨텍스트 폭증의 trade-off 제어?
- Tool-rich 환경(코드 실행, 멀티모달)으로의 확장 가능성?
- 이전 컨텍스트를 hard-discard하는 설계의 정보 손실이 critical reasoning task에서 한계로 작용하지 않는가?
메타데이터
| 항목 | 값 |
|---|---|
| Title | MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents |
| Authors | Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang |
| Venue | arXiv (cs.CL; cs.AI; cs.IR) |
| Year | 2025 (v1: 2025-06-18, v2: 2025-07-17) |
| arXiv | 2506.15841 |
| Model Size | 7B (MEM1-7B; Qwen2.5-7B 기반) |
| Code | 공개 (저자 GitHub) |
왜 이 연구를 하는가?
LLM 에이전트가 실제 서비스(브라우징, 쇼핑, 리서치 assistant)에 투입되면서 수십~수백 턴의 상호작용이 필수가 되었다. 그러나 트랜스포머 추론 비용은 컨텍스트 길이에 대해 quadratic이며, 긴 컨텍스트에서 성능이 급격히 나빠지는 “lost in the middle” 현상이 누적된다. MEM1은 이 문제를 아키텍처 변경 없이(그대로 LLM 사용) 학습 프레임워크 수준에서 해결하려는 시도로, 서비스 배포 관점의 비용·지연 문제와 학습 관점의 길이 일반화 문제를 동시에 공략한다.
방법 (Method)
flowchart LR Obs[환경 관측 o_t] --> Policy ISprev[이전 내부 상태 IS_t-1] --> Policy[MEM1 Policy LLM] Policy -->|생성| Think[추론 r_t] Policy -->|생성| Action[도구 액션 a_t] Policy -->|생성| ISnew[새 내부 상태 IS_t] Action --> Env[Environment] Env --> Obs2[다음 관측 o_t+1] ISnew --> NextTurn[다음 턴 컨텍스트는 IS_t와 instruction] Reward[Task Reward + Length Penalty] -.PPO.-> Policy
- 상수 메모리: 제약을 길이 패널티로 유도.
- Joint training: reasoning, action, state rewrite 토큰이 한 autoregressive sequence에 포함되어 동일한 gradient로 최적화.
- Hard context discard: 이전 턴의 raw 관측과 사고는 다음 턴 프롬프트에 포함되지 않고
<IS>내부에 응축된 형태로만 전달.
발견
| # | 발견 | 수치/증거 |
|---|---|---|
| F1 | 7B가 14B를 능가 | 16-obj multi-hop QA에서 성공률 ×3.5 |
| F2 | 메모리 효율 대폭 개선 | 동일 태스크 컨텍스트 토큰 ×1/3.7 |
| F3 | Horizon 일반화 | 4-obj 학습 후 8·16-obj에서 완만한 저하 |
| F4 | 도메인 간 전이 | retrieval QA → web QA → shopping 세 도메인 모두 개선 |
| F5 | 상수 메모리 inductive bias | full-ctx 대비 OOD 길이에서 robust |
이론적 의의
메모리 통합을 별도 모듈(RAG, memory network) 이 아닌 policy의 내재적 행동(internal action) 으로 재정의한 점이 핵심이다. 이는 (i) 메모리 정책과 태스크 정책의 credit assignment 문제를 단일 보상 신호로 통합하고, (ii) 길이에 대한 constant-memory invariance를 학습의 soft constraint로 부과하여 일반화를 개선한다. 장기적으로 에이전트의 “작업 기억(working memory)“을 학습 가능한 잠재 프로그램으로 바라보는 관점에 정당성을 부여한다.
재현성 및 신뢰도 평가
| 기준 | 평가 | 근거 |
|---|---|---|
| 코드 공개 | B | 저자 GitHub 공개, 학습 스크립트/환경 구성 제공 |
| 데이터 공개 | B | 기존 공개 QA/웹 데이터 조합, 합성 파이프라인 서술 |
| 실험 반복 | C | seed별 variance 보고 제한적 |
| 베이스라인 공정성 | B | Qwen2.5-7B/14B, ReAct 등 표준 비교 |
| 평가 커버리지 | B | 3 도메인 × 난이도 스케일 |
| 총평 Evidence Quality | B | 강한 효율성 주장, 일부 ablation 세부 제한 |
| 총평 Reproducibility | B | 공개 자원 충분하나 대규모 RL 재현 난이도 존재 |
관련 연구
- ReAct (Yao et al., 2022): 추론+액션 인터리빙, 그러나 full-context 누적.
- Reflexion (Shinn et al., 2023): 에피소드 단위 자가 반성 메모리, 외부 memory store 의존.
- MemGPT (Packer et al., 2023): OS-inspired paging; 메모리 정책이 별도 heuristic.
- RAG 계열: retrieval-reasoning 분리, end-to-end 학습 미흡.
- Long-context LLMs (YaRN, LongRoPE): 컨텍스트 확장으로 비용 해결 시도—MEM1과 상보적.
- h1 (Motwani et al., 2025): curriculum 기반 long-horizon RL; MEM1과 compositional task 아이디어 공유.
- MemWeaver (2026): 하이브리드 메모리 그래프, 직교적 접근.
원자적 인사이트
- “메모리는 별도의 모듈이 아니라 추론의 산물”: 메모리 관리 행동을 정책 토큰(
<IS>)으로 포함시키면 end-to-end RL이 “무엇을 기억할지”를 태스크 보상으로부터 자동 학습한다. - 상수 메모리 제약은 정규화다: 길이 bottleneck이 오히려 OOD 길이 일반화와 lost-in-the-middle 완화를 유도한다.
- Compositional env synthesis: 기존 short-horizon QA를 조합해 long-horizon 학습 데이터를 임의 horizon으로 스케일—데이터 병목을 우회하는 공학적 핵심 레버.
- Scale efficiency: 7B + 좋은 메모리 정책 > 14B + 풀 컨텍스트. 에이전트 품질의 병목이 파라미터가 아닌 컨텍스트 관리일 수 있음을 시사.
핵심 용어 정리
- Internal State (
<IS>): 매 턴 policy가 재작성하는 상수-길이 잠재 메모리. 자연어 토큰 시퀀스로 표현. - Long-Horizon Agent: 수십~수백 turn의 interdependent 의사결정을 요구하는 LLM 에이전트.
- Full-Context Prompting: 모든 히스토리를 누적해 LLM에 재입력하는 관행; 비용·길이 OOD 문제의 원인.
- Compositional Task Construction: 기존 데이터셋의 태스크를 결합해 multi-objective/multi-hop 시퀀스를 생성하는 합성 기법.
- Memory Consolidation: 관련 정보만 남기고 중복·무관 정보를 버리는 과정; 본 논문에서 추론과 통합.
- Horizon Generalization: 학습 시 관측되지 않은 긴 task 길이에서도 성능을 유지하는 능력.
- PPO / REINFORCE++: 본 논문에서 사용한 on-policy RL 알고리즘.
- Masked Trajectory: 이전 컨텍스트 토큰에 gradient를 흘리지 않도록 마스킹하여 IS·액션 토큰에만 credit을 부여하는 학습 기법.
Tags
Paper Agent LLM RL Memory LongHorizon MEM1 PPO Reasoning Application