MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents

Digest (CISELQ)

Context (C): 현대 LLM 에이전트는 multi-turn, long-horizon 환경(검색·브라우징·쇼핑 등)에서 동작해야 하며, 외부 정보를 반복 조회하고 상호 의존적인 하위 질의를 해결해야 한다. 그러나 대부분 시스템은 전체 히스토리를 컨텍스트에 누적하는 full-context prompting에 의존한다.
Issue (I): 풀 컨텍스트 누적은 (1) 비제한적 메모리 증가, (2) 추론 연산 비용의 선형~제곱적 증가, (3) 학습 시 관측되지 않은 긴 입력에서의 성능 열화(OOD length degradation)를 초래한다.
Solution (S): MEM1은 매 턴마다 과거 메모리와 새 관측을 병합하고 불필요 정보를 버리는 공유 내부 상태(<IS>...</IS>) 를 유지하며, 메모리 통합과 추론을 하나의 생성 단계에서 공동 수행하도록 end-to-end 강화학습(PPO / REINFORCE++ 계열) 으로 훈련한다. 또한 기존 데이터셋을 합성해 임의 복잡도의 multi-turn 환경을 만드는 compositional task construction을 제안한다.
Evaluation (E): Internal retrieval QA(HotpotQA 유사 multi-hop), open-domain web QA, multi-turn web shopping(WebShop 스타일) 3개 도메인에서 Qwen2.5-7B/14B-Instruct, ReAct, full-context agent 등과 비교. 메모리(토큰) 사용량, 성공률, 학습 horizon을 넘어선 일반화를 평가.
Limitations (L): 내부 상태의 품질이 단일 LLM의 요약 능력에 강하게 의존, 보상 설계가 태스크-특정이며, 이전 컨텍스트를 완전히 버리기 때문에 information loss 리스크가 구조적으로 존재. 멀티모달·도구 호출 루프까지의 일반화 실증은 제한적.
Quick take (Q): “모든 것을 기억하지 말고, 추론과 함께 기억을 재작성하라.” 상수 메모리 + RL 학습으로 7B 모델이 풀 컨텍스트 14B 모델을 3.5배 앞서고 메모리는 3.7배 절약.

섹션별 요약

Introduction

장기 horizon 에이전트의 근본 병목은 context window이며, 단순 truncation·RAG·외부 memory store는 추론과 메모리의 분리로 인해 정보 선택 오류나 누수가 발생한다. 저자들은 메모리 통합을 추론의 부산물로 학습시키는 방향을 제시한다.

Methods

Shared Internal State (<IS>): 매 턴 $t$ 에서 에이전트는 이전 상태 $I S_{t - 1}$ 과 환경 관측 $o_{t}$ 를 입력으로 받아, 새로운 reasoning trace $r_{t}$ , 도구 호출/액션 $a_{t}$ , 그리고 갱신된 $I S_{t}$ 를 동시에 생성한다. 다음 턴의 컨텍스트는 $[I S_{t}, instruction]$ 만을 포함하여 상수 길이로 유지된다.
Masked Trajectory 최적화: 각 턴에서 소비된 이전 컨텍스트는 policy gradient 계산 시 마스킹되어, IS 재작성 토큰과 액션 토큰에만 credit이 할당된다.
Training Env Composition: 단일-쿼리 QA 데이터셋을 조합해 $k$ -objective multi-hop 시퀀스(예: 2, 4, 8, 16 목표)를 자동 생성. 난이도·horizon을 연속적으로 스케일.
RL 학습: PPO 및 REINFORCE++ 기반 end-to-end 최적화. 보상은 (i) 최종 정답 정확도, (ii) 단계별 도구 호출 성공, (iii) 상태 길이 패널티(상수 메모리 유도)의 가중합으로 설계.

Results (요약 테이블)

도메인	태스크	베이스라인	MEM1-7B 결과
Internal Retrieval QA	16-objective multi-hop	Qwen2.5-14B-Instruct (full ctx)	성능 ×3.5, 메모리 ×1/3.7
Open-domain Web QA	multi-hop 검색	ReAct / full-context	동등 또는 상회, 토큰 대폭 절감
Multi-turn Web Shopping	목표 달성률 (WebShop 계열)	ReAct baseline	상수 컨텍스트에서 우세

훈련 horizon(예: 4-obj)을 넘어선 8·16-obj에서도 성능 저하가 완만하여 length generalization이 관찰됨.

Discussion

상수 메모리를 유지하는 제약은 정보 손실 리스크를 수반하지만, RL 보상 신호가 “무엇을 남길지” 를 학습시키는 강한 bottleneck regularizer로 작용해 오히려 OOD 길이에서의 robustness를 개선한다. 저자들은 메모리-추론 분리 아키텍처(RAG + 추론기)보다 통합(single-policy) 접근이 스케일링에서 유리할 수 있다고 주장.

Insights

메모리 통합은 생성 타임에 추론으로 구현할 수 있으며, 이는 별도 메모리 모듈보다 end-to-end 신호로 최적화하기 쉽다.
Compositional task synthesis는 long-horizon RL의 데이터 부족 문제를 우회하는 실용적 수단이다.
상수 메모리 제약은 단순 효율성뿐 아니라 일반화(generalization)에 기여하는 inductive bias.

Discussion Points

내부 상태의 해석가능성·감사(audit) 방법?
보상 해킹: 요약이 너무 짧아 정보 손실 vs 너무 길어 컨텍스트 폭증의 trade-off 제어?
Tool-rich 환경(코드 실행, 멀티모달)으로의 확장 가능성?
이전 컨텍스트를 hard-discard하는 설계의 정보 손실이 critical reasoning task에서 한계로 작용하지 않는가?

메타데이터

항목	값
Title	MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents
Authors	Zijian Zhou, Ao Qu, Zhaoxuan Wu, Sunghwan Kim, Alok Prakash, Daniela Rus, Jinhua Zhao, Bryan Kian Hsiang Low, Paul Pu Liang
Venue	arXiv (cs.CL; cs.AI; cs.IR)
Year	2025 (v1: 2025-06-18, v2: 2025-07-17)
arXiv	2506.15841
Model Size	7B (MEM1-7B; Qwen2.5-7B 기반)
Code	공개 (저자 GitHub)

왜 이 연구를 하는가?

LLM 에이전트가 실제 서비스(브라우징, 쇼핑, 리서치 assistant)에 투입되면서 수십~수백 턴의 상호작용이 필수가 되었다. 그러나 트랜스포머 추론 비용은 컨텍스트 길이에 대해 quadratic이며, 긴 컨텍스트에서 성능이 급격히 나빠지는 “lost in the middle” 현상이 누적된다. MEM1은 이 문제를 아키텍처 변경 없이(그대로 LLM 사용) 학습 프레임워크 수준에서 해결하려는 시도로, 서비스 배포 관점의 비용·지연 문제와 학습 관점의 길이 일반화 문제를 동시에 공략한다.

방법 (Method)

flowchart LR
    Obs[환경 관측 o_t] --> Policy
    ISprev[이전 내부 상태 IS_t-1] --> Policy[MEM1 Policy LLM]
    Policy -->|생성| Think[추론 r_t]
    Policy -->|생성| Action[도구 액션 a_t]
    Policy -->|생성| ISnew[새 내부 상태 IS_t]
    Action --> Env[Environment]
    Env --> Obs2[다음 관측 o_t+1]
    ISnew --> NextTurn[다음 턴 컨텍스트는 IS_t와 instruction]
    Reward[Task Reward + Length Penalty] -.PPO.-> Policy

상수 메모리: $∣ I S_{t} ∣ \leq L_{ma x}$ 제약을 길이 패널티로 유도.
Joint training: reasoning, action, state rewrite 토큰이 한 autoregressive sequence에 포함되어 동일한 gradient로 최적화.
Hard context discard: 이전 턴의 raw 관측과 사고는 다음 턴 프롬프트에 포함되지 않고 <IS> 내부에 응축된 형태로만 전달.

발견

#	발견	수치/증거
F1	7B가 14B를 능가	16-obj multi-hop QA에서 성공률 ×3.5
F2	메모리 효율 대폭 개선	동일 태스크 컨텍스트 토큰 ×1/3.7
F3	Horizon 일반화	4-obj 학습 후 8·16-obj에서 완만한 저하
F4	도메인 간 전이	retrieval QA → web QA → shopping 세 도메인 모두 개선
F5	상수 메모리 inductive bias	full-ctx 대비 OOD 길이에서 robust

이론적 의의

메모리 통합을 별도 모듈(RAG, memory network) 이 아닌 policy의 내재적 행동(internal action) 으로 재정의한 점이 핵심이다. 이는 (i) 메모리 정책과 태스크 정책의 credit assignment 문제를 단일 보상 신호로 통합하고, (ii) 길이에 대한 constant-memory invariance를 학습의 soft constraint로 부과하여 일반화를 개선한다. 장기적으로 에이전트의 “작업 기억(working memory)“을 학습 가능한 잠재 프로그램으로 바라보는 관점에 정당성을 부여한다.

재현성 및 신뢰도 평가

기준	평가	근거
코드 공개	B	저자 GitHub 공개, 학습 스크립트/환경 구성 제공
데이터 공개	B	기존 공개 QA/웹 데이터 조합, 합성 파이프라인 서술
실험 반복	C	seed별 variance 보고 제한적
베이스라인 공정성	B	Qwen2.5-7B/14B, ReAct 등 표준 비교
평가 커버리지	B	3 도메인 × 난이도 스케일
총평 Evidence Quality	B	강한 효율성 주장, 일부 ablation 세부 제한
총평 Reproducibility	B	공개 자원 충분하나 대규모 RL 재현 난이도 존재

원자적 인사이트

“메모리는 별도의 모듈이 아니라 추론의 산물”: 메모리 관리 행동을 정책 토큰(<IS>)으로 포함시키면 end-to-end RL이 “무엇을 기억할지”를 태스크 보상으로부터 자동 학습한다.
상수 메모리 제약은 정규화다: 길이 bottleneck이 오히려 OOD 길이 일반화와 lost-in-the-middle 완화를 유도한다.
Compositional env synthesis: 기존 short-horizon QA를 조합해 long-horizon 학습 데이터를 임의 horizon으로 스케일—데이터 병목을 우회하는 공학적 핵심 레버.
Scale efficiency: 7B + 좋은 메모리 정책 > 14B + 풀 컨텍스트. 에이전트 품질의 병목이 파라미터가 아닌 컨텍스트 관리일 수 있음을 시사.

핵심 용어 정리

Internal State (<IS>): 매 턴 policy가 재작성하는 상수-길이 잠재 메모리. 자연어 토큰 시퀀스로 표현.
Long-Horizon Agent: 수십~수백 turn의 interdependent 의사결정을 요구하는 LLM 에이전트.
Full-Context Prompting: 모든 히스토리를 누적해 LLM에 재입력하는 관행; 비용·길이 OOD 문제의 원인.
Compositional Task Construction: 기존 데이터셋의 태스크를 결합해 multi-objective/multi-hop 시퀀스를 생성하는 합성 기법.
Memory Consolidation: 관련 정보만 남기고 중복·무관 정보를 버리는 과정; 본 논문에서 추론과 통합.
Horizon Generalization: 학습 시 관측되지 않은 긴 task 길이에서도 성능을 유지하는 능력.
PPO / REINFORCE++: 본 논문에서 사용한 on-policy RL 알고리즘.
Masked Trajectory: 이전 컨텍스트 토큰에 gradient를 흘리지 않도록 마스킹하여 IS·액션 토큰에만 credit을 부여하는 학습 기법.

Juhyeon's Blog

탐색기

MEM1 - Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents